# DataFrame 병합
### merge 
- 특정 컬럼을 기준으로 데이터프레임을 병합

In [2]:
import pandas as pd

In [8]:
df1 = pd.DataFrame({
    'id': [1,2,3,4],
    'name': ['토끼','판다','코알라','양']
})

df2 = pd.DataFrame({
    'id': [1,2,3,5],
    'score': [100,95,88,71]
})

In [None]:
# merge()
# - on: merge 기준 컬럼
# - how: merge 방법 (inner(기본 값), outer, left, right)
pd.merge(df1, df2, on='id', how='inner')

Unnamed: 0,id,name,score
0,1,토끼,100
1,2,판다,95
2,3,코알라,88


In [None]:
pd.merge(df1, df2, on='id', how='left') # 왼쪽에 있는 df1 기준으로 merge

Unnamed: 0,id,name,score
0,1,토끼,100.0
1,2,판다,95.0
2,3,코알라,88.0
3,4,양,


In [None]:
pd.merge(df1, df2, on='id', how='right') # 오른쪽에 있는 df2 기준으로 merge

Unnamed: 0,id,name,score
0,1,토끼,100
1,2,판다,95
2,3,코알라,88
3,5,,71


In [None]:
pd.merge(df1, df2, on='id', how='outer') 

Unnamed: 0,id,name,score
0,1,토끼,100.0
1,2,판다,95.0
2,3,코알라,88.0
3,4,양,
4,5,,71.0


---
### join

In [6]:
df3 = pd.DataFrame({
    'age':[33,48,5,99],
    'city': ['서울','수원','대전','서울']
}, index=['하니','민지','해린','길동'])

df4 = pd.DataFrame({
    'pet': ['고양이','강아지','햄스터','돌']
}, index=['하니','민지','해린','홍'])

df3, df4

(    age city
 하니   33   서울
 민지   48   수원
 해린    5   대전
 길동   99   서울,
     pet
 하니  고양이
 민지  강아지
 해린  햄스터
 홍     돌)

In [None]:
df3.join(df4) # how 기본값: left

Unnamed: 0,age,city,pet
하니,33,서울,고양이
민지,48,수원,강아지
해린,5,대전,햄스터
길동,99,서울,


In [8]:
df3.join(df4, how='inner')

Unnamed: 0,age,city,pet
하니,33,서울,고양이
민지,48,수원,강아지
해린,5,대전,햄스터


In [9]:
df3.join(df4,how='left')

Unnamed: 0,age,city,pet
하니,33,서울,고양이
민지,48,수원,강아지
해린,5,대전,햄스터
길동,99,서울,


In [10]:
df3.join(df4, how='right')

Unnamed: 0,age,city,pet
하니,33.0,서울,고양이
민지,48.0,수원,강아지
해린,5.0,대전,햄스터
홍,,,돌


In [11]:
df3.join(df4, how='outer')

Unnamed: 0,age,city,pet
길동,99.0,서울,
민지,48.0,수원,강아지
하니,33.0,서울,고양이
해린,5.0,대전,햄스터
홍,,,돌


---
# concat
- 축을 기준으로 병합

In [9]:
df5 = pd.DataFrame({
    'nickname': ['구준표','윤지후','소이정','프린스송송'],
    'age': [18,18,18,18]
})

df6 = pd.DataFrame({
    'name': ['금잔디'],
    'age': [17]
})

df5, df6

(  nickname  age
 0      구준표   18
 1      윤지후   18
 2      소이정   18
 3    프린스송송   18,
   name  age
 0  금잔디   17)

In [10]:
pd.concat([df5,df6], axis=0).reset_index(drop=True)

Unnamed: 0,nickname,age,name
0,구준표,18,
1,윤지후,18,
2,소이정,18,
3,프린스송송,18,
4,,17,금잔디


In [8]:
pd.concat([df5,df6], axis=1)

Unnamed: 0,name,age,name.1,age.1
0,구준표,18,금잔디,17.0
1,윤지후,18,,
2,소이정,18,,
3,프린스송송,18,,


---
# melt

In [11]:
df = pd.DataFrame({
    'name': ['홍길동', '신사임당', '이순신'],
    'math': [80, 99, 100],
    'english': [34, 58, 48],
    'science': [99, 55, 77],
})

In [16]:
pd.melt(
    df,
    id_vars=['name'], # 고정될 컬럼
    value_vars=['math','english','science'], # 합쳐질 컬럼
    var_name='subject', # 컬럼명이 합쳐질 컬럼의 이름
    value_name='score' # 컬럼값이 합쳐질 컬럼의 이름
)

Unnamed: 0,name,subject,score
0,홍길동,math,80
1,신사임당,math,99
2,이순신,math,100
3,홍길동,english,34
4,신사임당,english,58
5,이순신,english,48
6,홍길동,science,99
7,신사임당,science,55
8,이순신,science,77
