# DataFrame 병합

In [1]:
import numpy as np
import pandas as pd

### merge

- 특정 '컬럼' 기준으로 DataFrame 병합

In [2]:
df1 = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'name': ['다람쥐', '토끼', '곰', '고릴라']
})
df2 = pd.DataFrame({
    'id': [1, 2, 3, 5],
    'score': [100, 95, 88, 89]
})

In [3]:
# merge()
# - on: merge 기준 컬럼
# - how: merge 방법 (inner(기본 값), left, right, outer)

pd.merge(df1, df2, on='id', how='inner')

Unnamed: 0,id,name,score
0,1,다람쥐,100
1,2,토끼,95
2,3,곰,88


In [4]:
pd.merge(df1, df2, on='id', how='left')

Unnamed: 0,id,name,score
0,1,다람쥐,100.0
1,2,토끼,95.0
2,3,곰,88.0
3,4,고릴라,


In [5]:
pd.merge(df1, df2, on='id', how='right')

Unnamed: 0,id,name,score
0,1,다람쥐,100
1,2,토끼,95
2,3,곰,88
3,5,,89


In [6]:
pd.merge(df1, df2, on='id', how='outer')

Unnamed: 0,id,name,score
0,1,다람쥐,100.0
1,2,토끼,95.0
2,3,곰,88.0
3,4,고릴라,
4,5,,89.0


In [7]:
df1 = pd.DataFrame({
    'n_id': [1, 2, 3, 4],
    'name': ['다람쥐', '토끼', '곰', '고릴라']
})
df2 = pd.DataFrame({
    's_id': [1, 2, 3, 5],
    'score': [100, 95, 88, 89]
})

In [8]:
pd.merge(df1, df2, left_on='n_id', right_on='s_id')

Unnamed: 0,n_id,name,s_id,score
0,1,다람쥐,1,100
1,2,토끼,2,95
2,3,곰,3,88


---

### join

- 특정 '인덱스' 기준으로 DataFrame 병합

In [9]:
df3 = pd.DataFrame({
    'age': [33, 48, 55, 24],
    'city': ['서울', '수원', '인천', '서울']
}, index=['이석훈', '김용준', '김진호', '남윤진'])
df4 = pd.DataFrame({
    'pet': ['고양이', '강아지', '햄스터', '돌']
}, index=['이석훈', '김용준', '김진호', '윤진'])

display(df3)
display(df4)

Unnamed: 0,age,city
이석훈,33,서울
김용준,48,수원
김진호,55,인천
남윤진,24,서울


Unnamed: 0,pet
이석훈,고양이
김용준,강아지
김진호,햄스터
윤진,돌


In [10]:
df3.join(df4)       # how 기본값: left

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


In [11]:
df3.join(df4, how='left')

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


In [12]:
df3.join(df4, how='right')

Unnamed: 0,age,city,pet
이석훈,33.0,서울,고양이
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
윤진,,,돌


In [13]:
df3.join(df4, how='outer')

Unnamed: 0,age,city,pet
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
남윤진,24.0,서울,
윤진,,,돌
이석훈,33.0,서울,고양이


In [14]:
df3.join(df4, how='inner')

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터


---

### concat

- 축을 기준으로 DataFrame 병합

In [15]:
df5 = pd.DataFrame({
    'name': ['구준표', '윤지후', '소이정', '프린스송'],
    'age': [18, 18, 18, 18]
})
df6 = pd.DataFrame({
    'name': ['금잔디'],
    'age': [17]
})

In [16]:
pd.concat([df5, df6], axis=0).reset_index(drop=True)

Unnamed: 0,name,age
0,구준표,18
1,윤지후,18
2,소이정,18
3,프린스송,18
4,금잔디,17


In [17]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,name,age,name.1,age.1
0,구준표,18,금잔디,17.0
1,윤지후,18,,
2,소이정,18,,
3,프린스송,18,,


---

### melt

- 열 병합

In [20]:
df = pd.DataFrame({
    'name': ['홍길동', '신사임당', '이순신'],
    'math': [80, 99, 100],
    'english': [34, 58, 48],
    'science': [99, 55, 77],
})

df

Unnamed: 0,name,math,english,science
0,홍길동,80,34,99
1,신사임당,99,58,55
2,이순신,100,48,77


In [None]:
pd.melt(
    df,                                         # 대상 DataFrame
    id_vars=['name'],                           # 고정(유지)될 컬럼
    value_vars=['math', 'english', 'science'],  # 합쳐질 컬럼
    var_name='subject',                         # 컬럼명이 합쳐질 컬럼의 이름
    value_name='score'                          # 컬럼값이 합쳐질 컬럼의 이름
)

Unnamed: 0,name,subject,score
0,홍길동,math,80
1,신사임당,math,99
2,이순신,math,100
3,홍길동,english,34
4,신사임당,english,58
5,이순신,english,48
6,홍길동,science,99
7,신사임당,science,55
8,이순신,science,77
