# DataFrame 병합

In [1]:
import numpy as np
import pandas as pd

### merge
- 특정 '컬럼' 기준으로 DF 병합

In [2]:
df1 = pd.DataFrame({
    'id': [1,2,3,4],
    'name': ['다람쥐', '토끼', '곰', '고릴라']
})

df2 = pd.DataFrame({
    'id': [1,2,3,5],
    'score': [100,95,88,89]
})

In [3]:
# merge()
# - on: merge 기준 컬럼
# - how: merge 방법 (inner(기본값), left, right, outer)
pd.merge(df1, df2, on='id', how='inner')

Unnamed: 0,id,name,score
0,1,다람쥐,100
1,2,토끼,95
2,3,곰,88


In [4]:
pd.merge(df1, df2, on='id', how='left')

Unnamed: 0,id,name,score
0,1,다람쥐,100.0
1,2,토끼,95.0
2,3,곰,88.0
3,4,고릴라,


In [5]:
pd.merge(df1, df2, on='id', how='right')

Unnamed: 0,id,name,score
0,1,다람쥐,100
1,2,토끼,95
2,3,곰,88
3,5,,89


In [6]:
pd.merge(df1, df2, on='id', how='outer')

Unnamed: 0,id,name,score
0,1,다람쥐,100.0
1,2,토끼,95.0
2,3,곰,88.0
3,4,고릴라,
4,5,,89.0


In [7]:
df1 = pd.DataFrame({
    'n_id': [1,2,3,4],
    'name': ['다람쥐', '토끼', '곰', '고릴라']
})

df2 = pd.DataFrame({
    's_id': [1,2,3,5],
    'score': [100,95,88,89]
})

In [10]:
# merge 해야 할 기준 컬럼의 이름이 다를 때 해결
display(pd.merge(df1, df2, left_on='n_id', right_on='s_id'))
display(pd.merge(df1, df2, left_on='n_id', right_on='s_id', how='left'))
display(pd.merge(df1, df2, left_on='n_id', right_on='s_id', how='right'))
display(pd.merge(df1, df2, left_on='n_id', right_on='s_id', how='outer'))

Unnamed: 0,n_id,name,s_id,score
0,1,다람쥐,1,100
1,2,토끼,2,95
2,3,곰,3,88


Unnamed: 0,n_id,name,s_id,score
0,1,다람쥐,1.0,100.0
1,2,토끼,2.0,95.0
2,3,곰,3.0,88.0
3,4,고릴라,,


Unnamed: 0,n_id,name,s_id,score
0,1.0,다람쥐,1,100
1,2.0,토끼,2,95
2,3.0,곰,3,88
3,,,5,89


Unnamed: 0,n_id,name,s_id,score
0,1.0,다람쥐,1.0,100.0
1,2.0,토끼,2.0,95.0
2,3.0,곰,3.0,88.0
3,4.0,고릴라,,
4,,,5.0,89.0


---

### join
- 특정 '인덱스' 기준으로 데이터프레임 병합

In [12]:
df3 = pd.DataFrame({
    'age': [33,48, 55, 24],
    'city': ['서울', '수원','인천', '서울']
}, index=['이석훈','김용준','김진호','남윤진'])
df4 = pd.DataFrame({
    'pet': ['고양이', '강아지','햄스터', '돌']
}, index=['이석훈','김용준','김진호','윤진'])

display(df3)
display(df4)

Unnamed: 0,age,city
이석훈,33,서울
김용준,48,수원
김진호,55,인천
남윤진,24,서울


Unnamed: 0,pet
이석훈,고양이
김용준,강아지
김진호,햄스터
윤진,돌


In [18]:
display(df3.join(df4), 'inner')   # how 기본값: left
display(df3.join(df4, how='inner'), 'left')
display(df3.join(df4, how='left'), 'right')
display(df3.join(df4, how='right'), 'outer')
display(df3.join(df4, how='outer'))

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


'inner'

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터


'left'

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


'right'

Unnamed: 0,age,city,pet
이석훈,33.0,서울,고양이
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
윤진,,,돌


'outer'

Unnamed: 0,age,city,pet
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
남윤진,24.0,서울,
윤진,,,돌
이석훈,33.0,서울,고양이


---

### concat
- 축을 기준으로 dataframe 병합

In [20]:
df5 = pd.DataFrame({
    'name': ['구준표', '윤지후', '소이정', '프린스송'],
    'age': [18, 18, 18, 18]
})
df6 = pd.DataFrame({
    'name': ['금잔디'],
    'age': [17]
})

In [30]:
display(pd.concat([df5,df6], axis=0).reset_index(drop=True)) 
display(pd.concat([df5,df6], axis=1))

Unnamed: 0,name,age
0,구준표,18
1,윤지후,18
2,소이정,18
3,프린스송,18
4,금잔디,17


Unnamed: 0,name,age,name.1,age.1
0,구준표,18,금잔디,17.0
1,윤지후,18,,
2,소이정,18,,
3,프린스송,18,,


---

### melt
- 열 병합 (기존 df 구조 변경)

In [51]:
df = pd.DataFrame({
    'name': ['홍길동', '신사임당', '이순신'],
    'math': [80, 99, 100],
    'english': [34, 58, 48],
    'science': [99, 55, 77],
})

df

Unnamed: 0,name,math,english,science
0,홍길동,80,34,99
1,신사임당,99,58,55
2,이순신,100,48,77


In [49]:
pd.melt(
    df,                                             # 대상 Dataframe
    id_vars=['name'],                               # 고정(유지)될 컬럼
    value_vars = ['math', 'english', 'science'],    # 합쳐질 컬림
    var_name='SUBJECT',                             # 컬럼명이 합쳐질 컬럼의 이름
    value_name='SCORE'                              # 컬럼값이 합쳐질 컬림 이름
)
                               

Unnamed: 0,name,SUBJECT,SCORE
0,홍길동,math,80
1,신사임당,math,99
2,이순신,math,100
3,홍길동,english,34
4,신사임당,english,58
5,이순신,english,48
6,홍길동,science,99
7,신사임당,science,55
8,이순신,science,77
