# DataFrame Merge

In [1]:
# 판다스 패키지 로딩
import pandas as pd

## Inner Join

In [2]:
# 두 개의 데이터프레임 생성

data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


In [3]:
# inner join -- 일치되는 것만 join
inner_df = pd.merge(df1, df2, on='학번', how='inner') # 어떤 컬럼을 기준으로 merge할 지 on 파라미터에 명시

In [4]:
display(inner_df)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1


## Outer Join

In [5]:
# 위와 같은 데이터 사용

data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [6]:
# outer join 사용
outer_df = pd.merge(df1, df2, on='학번', how='outer') # how='outer'

In [8]:
display(outer_df)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1
4,5,,,1.0,3.8


## Left and Right Join

In [9]:
left_df = pd.merge(df1, df2, on='학번', how='left')
display(left_df) # df1의 키를 기준으로 merge 진행됨

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1


In [10]:
right_df = pd.merge(df1, df2, on='학번', how='right')
display(right_df) # df2의 키를 기준으로 merge 진행됨

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1
3,5,,,1,3.8


## <span style="background-color:#F1F8FF">merge</span> 응용 : 현실 데이터를 다룰 때 생길만 한 경우
### 1) 같은 의미의 다른 컬럼 명을 병합할 때

In [11]:
# case 1: 같은 의미 다른 컬럼명 --> 학번 vs 학생고유번호
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학생고유번호': [1, 2, 4, 5], # 학번 대신 학생고유번호로 기록
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [12]:
display(df1)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


In [13]:
display(df2)

Unnamed: 0,학생고유번호,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


In [14]:
merged_df = pd.merge(df1, df2, left_on='학번', right_on='학생고유번호', how='inner') 
display(merged_df)

Unnamed: 0,학번,이름,학과,학생고유번호,학년,학점
0,1,아이유,철학,1,2,1.5
1,2,김연아,경영학,2,4,2.0
2,4,강감찬,물리학,4,3,4.1


In [15]:
# 두 개의 공통 키 중 하나를 삭제
merged_df.drop('학생고유번호', axis=1)
# merged_df.drop('학생고유번호', axis=1, inplace=True)
# display(merged_df)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1


### 2) 공유하는 컬럼이 없는 경우

In [16]:
# 왼쪽 데이터
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

#오른쪽 데이터
data2 = {
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index=[1, 2, 4, 5]) # 예제를 위해 임의로 이상한 인덱스 부여

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학년,학점
1,2,1.5
2,4,2.0
4,3,4.1
5,1,3.8


In [17]:
# 양쪽 데이터프레임의 인덱스로 병합 진행
merged_df1 = pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

In [18]:
display(merged_df1)

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영학,2,1.5
2,3,홍길동,컴퓨터,4,2.0


In [20]:
# 왼쪽은 학번을 기준으로
# 오른쪽은 인덱스를 기준으로 병합
merged_df2 = pd.merge(df1, df2, left_on='학번', right_index=True, how='inner')

In [21]:
display(merged_df2)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
3,4,강감찬,물리학,3,4.1


In [22]:
# join사용(pandas에서 못씀) : 양쪽 데이터프레임의 인덱스를 기준으로 병합
df1.join(df2, how='inner')

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영학,2,1.5
2,3,홍길동,컴퓨터,4,2.0


## 데이터 연결 <span style="background-color:#F1F8FF">pandas.concat</span>

In [23]:
# 필요한 라이브러리 로딩
import numpy as np
import pandas as pd

np.random.seed(1) # 예제를 위한 고정된 난수 생성

In [26]:
# 3x2 정수로 구성된 매트릭스 생성
df1 = pd.DataFrame(np.random.randint(0, 9, (3, 2)),   # 3x2 매트릭스
                  index=['a', 'b', 'c'],
                  columns=['one', 'two'])
display(df1)

Unnamed: 0,one,two
a,5,8
b,5,0
c,0,1


In [27]:
# 2x2 정수로 구성된 두번째 매트릭스 생성
df2 = pd.DataFrame(np.random.randint(0, 9, (2, 2)),
                  index=['a', 'b'],
                  columns=['three', 'four'])
display(df2)

Unnamed: 0,three,four
a,7,6
b,2,4


In [28]:
# df1 & df2 concat으로 연결
result_df = pd.concat([df1, df2], axis=1)   # axis=1: 열방향으로 연결
display(result_df)

Unnamed: 0,one,two,three,four
a,5,8,7.0,6.0
b,5,0,2.0,4.0
c,0,1,,


In [31]:
# outer join으로도 concat과 같은 결과 데이터프레임을 확인할 수 있음
merge_df = pd.merge(df1, df2, left_index=True, right_index=True, how='outer')
display(merge_df)

Unnamed: 0,one,two,three,four
a,5,8,7.0,6.0
b,5,0,2.0,4.0
c,0,1,,


In [32]:
# 행방향 연결 : axis=0
result_df = pd.concat([df1, df2], axis=0)
display(result_df)

Unnamed: 0,one,two,three,four
a,5.0,8.0,,
b,5.0,0.0,,
c,0.0,1.0,,
a,,,7.0,6.0
b,,,2.0,4.0


In [33]:
# 새로운 데이터 생성
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학번': [5, 6, 7, 8],
    '이름': ['김범수', '이을용', '이순신', '김한국'],
    '학과': ['경제학', '국문학', '경영학', '경영학']
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [34]:
display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,이름,학과
0,5,김범수,경제학
1,6,이을용,국문학
2,7,이순신,경영학
3,8,김한국,경영학


In [35]:
# pandas concat 예시
concat_df = pd.concat([df1, df2], axis=0) # 행방향 연결
concat_df.reset_index(drop=True, inplace=True) # drop인수를 주면서 index 컬럼은 따로 안함
display(concat_df)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학
4,5,김범수,경제학
5,6,이을용,국문학
6,7,이순신,경영학
7,8,김한국,경영학
