## DataFrame Merge

In [1]:
import pandas as pd

### Inner join

In [2]:
# 데이터 merge 실습용 두 개의 데이터프레임 생성
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}


df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


In [3]:
# inner join : 일치하는 것만 merge
inner_df = pd.merge(df1, df2, on='학번', how='inner')

In [11]:
display(inner_df)
display(inner_df.iloc[:, [0, 1, 3, 4]]) # join 후 슬라이싱 및 인덱싱도 할 수 있겠네

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1


Unnamed: 0,학번,이름,학년,학점
0,1,아이유,2,1.5
1,2,김연아,4,2.0
2,4,강감찬,3,4.1


### Outer join

In [12]:
# 위와 동일한 데이터 사용
outer_df = pd.merge(df1, df2, on='학번', how='outer')

In [13]:
display(outer_df)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1
4,5,,,1.0,3.8


## Left and Right join

In [14]:
left_df = pd.merge(df1, df2, on='학번', how='left')
right_df = pd.merge(df1, df2, on='학번', how='right')

display(left_df)
display(right_df)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1


Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1
3,5,,,1,3.8


## merge 응용: 현실 데이터를 다룰 때 발생할 수 있는 사례

### 1) 같은 의미의 이름이 다른 column으로 병합할 때

In [42]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영', '컴퓨터', '물리']
}

data2 = {
    '학생고유번호': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [43]:
display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영
2,3,홍길동,컴퓨터
3,4,강감찬,물리


Unnamed: 0,학생고유번호,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


In [47]:
# 이러한 경우 left_on, right_on 속성을 주어 join을 진행하면 된다.
merged_df = pd.merge(df1, df2, left_on='학번', right_on='학생고유번호', how='inner')
display(merged_df)

Unnamed: 0,학번,이름,학과,학생고유번호,학년,학점
0,1,아이유,철학,1,2,1.5
1,2,김연아,경영,2,4,2.0
2,4,강감찬,물리,4,3,4.1


In [48]:
# 두 개의 공통 키 중 하나 삭제
# drop 할 땐 axis 값 꼭 주기
merged_df.drop('학생고유번호', axis=1)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영,4,2.0
2,4,강감찬,물리,3,4.1


### 2) 공유하는 column이 없는 경우

In [51]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영', '컴퓨터', '물리']
}

data2 = {
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index=[1, 2, 4, 5]) # 예제를 위해 비정상적인 인덱스 부여

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영
2,3,홍길동,컴퓨터
3,4,강감찬,물리


Unnamed: 0,학년,학점
1,2,1.5
2,4,2.0
4,3,4.1
5,1,3.8


In [52]:
# 두 데이터프레임의 인덱스로 병합 진행
merged_df1 = pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

In [53]:
display(merged_df1)

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영,2,1.5
2,3,홍길동,컴퓨터,4,2.0


In [54]:
# df1은 학번을 기준으로, df2는 인덱스를 기준으로 병합
merged_df2 = pd.merge(df1, df2, left_on='학번', right_index=True, how='inner')

In [55]:
display(merged_df2)

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영,4,2.0
3,4,강감찬,물리,3,4.1


In [56]:
# DataFrame이 제공하는 join 메소드 이용, 왼쪽 데이터프레임의 인덱스를 기준으로 병합
df1.join(df2, how='inner')

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영,2,1.5
2,3,홍길동,컴퓨터,4,2.0


## DataFrame 연결 pandas.concat

In [58]:
import numpy as np
import pandas as pd

np.random.seed(1) # 예제를 위한 고정된 난수 설정

In [60]:
# 3x2 정수로 구성된 DataFrame 생성
 # 0부터 9 사이의 integer를 만들 것이며, shape는 3x2임을 명시
df1 = pd.DataFrame(np.random.randint(0, 9, (3, 2)),
                  index=['a', 'b', 'c'],
                  columns=['one', 'two'])
display(df1)


Unnamed: 0,one,two
a,7,6
b,2,4
c,5,2


In [62]:
# 2x2 정수로 구성된 DataFrame 생성
df2 = pd.DataFrame(np.random.randint(0, 9, (2, 2)),
                  index=['a', 'b'],
                  columns=['three', 'four'])
display(df2)

Unnamed: 0,three,four
a,7,0
b,6,7


In [64]:
# concat() 메소드의 경우 연결하고자 하는 데이터프레임을 리스트 인자로 넘겨야 한다.
result_df = pd.concat([df1, df2], axis=1) # axis=1 열 방향으로 연결
display(result_df)

Unnamed: 0,one,two,three,four
a,7,6,7.0,0.0
b,2,4,6.0,7.0
c,5,2,,


In [68]:
# outer join으로도 concat과 같은 결과 데이터프레임을 얻을 수 있다
result_df = pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

In [69]:
display(result_df)

Unnamed: 0,one,two,three,four
a,7,6,7.0,0.0
b,2,4,6.0,7.0
c,5,2,,


In [70]:
# 행방향 연결
result_df = pd.concat([df1, df2], axis=0)
display(result_df)

Unnamed: 0,one,two,three,four
a,7.0,6.0,,
b,2.0,4.0,,
c,5.0,2.0,,
a,,,7.0,0.0
b,,,6.0,7.0


In [71]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영', '컴퓨터', '물리']
}

data2 = {
    '학번': [5, 6, 7, 8],
    '이름': ['김범수', '이을용', '이순신', '김한국'],
    '학과': ['경제학', '국문학', '경영학', '경영학']
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [72]:
display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영
2,3,홍길동,컴퓨터
3,4,강감찬,물리


Unnamed: 0,학번,이름,학과
0,5,김범수,경제학
1,6,이을용,국문학
2,7,이순신,경영학
3,8,김한국,경영학


In [75]:
# 인덱스가 잘 떨어지지 않을 경우에는 아래와 같이 reset_index를 활용할 수 있다
concat_df = pd.concat([df1, df2], axis=0)
concat_df.reset_index(drop=True, inplace=True)

In [76]:
display(concat_df)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영
2,3,홍길동,컴퓨터
3,4,강감찬,물리
4,5,김범수,경제학
5,6,이을용,국문학
6,7,이순신,경영학
7,8,김한국,경영학
