# DataFrame Merge

## 0. 패키지 로딩

In [1]:
# 판다스 패키지 로딩
import pandas as pd

## 1. 데이터 병합

### 1-1. Inner Join

In [10]:
# (데이터 merge 실습용) 두 개의 데이터프레임 생성

data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}
data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

# 데이터프레임으로 변환
df1 = pd.DataFrame(data1) 
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


- 여기에서는 학번이 두 df가 공유하는 컬럼으로 key값이 된다. 

In [3]:
# inner join -- 일차되는 것만 merge
inner_df = pd.merge(df1, df2, on='학번', how='inner') # 어떤 컬럼을 기준으로 merge할지 on 파라미터에 명시
inner_df

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1


### 1-2. Outer Join

In [4]:
# (데이터 merge 실습용) 두 개의 데이터프레임 생성

data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}
data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

# 데이터프레임으로 변환
df1 = pd.DataFrame(data1) 
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


In [5]:
# outer join 사용
outer_df = pd.merge(df1, df2, on='학번', how='outer') # how = 'outer'
outer_df

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1
4,5,,,1.0,3.8


### 1-3. Left and Right Join

In [8]:
left_df = pd.merge(df1, df2, on='학번', how='left') # pd.merge(첫번쨰 데이터프레임, 두번째 데이터프레임, on, how)
left_df # df1(왼쪽 df)의 키를 기준으로 merge 진행되었음

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2.0,1.5
1,2,김연아,경영학,4.0,2.0
2,3,홍길동,컴퓨터,,
3,4,강감찬,물리학,3.0,4.1


In [9]:
right_df = pd.merge(df1, df2, on='학번', how='right') # how = 'right'
right_df # df2(오쪽 df)의 키를 기준으로 merge 진행되었음

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1
3,5,,,1,3.8


### 1-4. `merge` 응용: 현실 데이터를 다룰 때 생길만 한 경우

#### 1-4-1. 같은 의미의 다른 컬럼명을 병합할 때

In [12]:
# case 1: 같은 의미 다른 컬럼명 --> 학번 vs. 학생고유번호
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}
data2 = {
    '학생고유번호': [1, 2, 4, 5],   # 학번 대신 학생고유번호로 기록!
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

# 데이터프레임으로 변환
df1 = pd.DataFrame(data1) 
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학생고유번호,학년,학점
0,1,2,1.5
1,2,4,2.0
2,4,3,4.1
3,5,1,3.8


- 이 두 df를 병합하려면 조금 다르게 해주어야 한다. 

In [13]:
# pd.merge(첫번째 데이터프레임, 두번째 데이터프레임, 첫 df의 key, 두번째 df의 key audtl, how)
merged_df = pd.merge(df1, df2, left_on='학번', right_on='학생고유번호', how='inner') # 
merged_df

Unnamed: 0,학번,이름,학과,학생고유번호,학년,학점
0,1,아이유,철학,1,2,1.5
1,2,김연아,경영학,2,4,2.0
2,4,강감찬,물리학,4,3,4.1


In [14]:
# 두 개의 공통 키 중 하나를 삭제
merged_df.drop('학생고유번호', axis=1, inplace=True)
merged_df

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
2,4,강감찬,물리학,3,4.1


#### 1-4-2. 공유하는 컬럼이 없는 경우

In [15]:
# 왼쪽 데이터
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}
# 오른쪽 데이터
data2 = {
    '학년': [2, 4, 3, 1], # 학번 데이터가 제거
    '학점': [1.5, 2.0, 4.1, 3.8]
}

# 데이터프레임으로 변환
df1 = pd.DataFrame(data1) 
df2 = pd.DataFrame(data2, index=[1, 2, 4, 5]) # 예제를 위해 이상한 인덱스를 부

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학년,학점
1,2,1.5
2,4,2.0
4,3,4.1
5,1,3.8


In [17]:
# 양 데이터프레임의 인덱스 기반으로 병합 진행
merged_df1 = pd.merge(df1, df2, left_index=True, right_index=True, how='inner')
merged_df1

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영학,2,1.5
2,3,홍길동,컴퓨터,4,2.0


> 왜 index를 사용하는가?
- pd.merge 함수에서 left_index=True와 right_index=True를 사용하는 이유는, 두 데이터프레임의 인덱스가 병합의 기준이 되도록 지정하기 위함 
- 즉, 각 데이터프레임의 행들이 동일한 인덱스를 가지고 있을 때, 그 인덱스를 기준으로 병합을 수행함.

> 공통된 인덱스가 아니어도 되는가?
- left_index=True와 right_index=True를 사용하여 인덱스를 기준으로 병합할 때, 공통된 인덱스가 없는 경우에도 병합할 수 있다.
- 이때는 how 매개변수를 사용하여 병합 방식(inner, outer, left, right)을 선택할 수 있다.

-- how='inner': 두 데이터프레임의 공통 인덱스만 남겨서 병합합니다. 공통된 인덱스가 없는 경우, 결과 데이터프레임은 비어 있게 됩니다.

-- how='outer': 두 데이터프레임의 모든 인덱스를 포함하여 병합합니다. 공통된 인덱스가 없더라도 결과에 모든 인덱스가 포함되며, 한쪽에만 존재하는 인덱스의 값은 NaN으로 채워집니다.

-- how='left': left_index=True로 지정된 데이터프레임(df1)의 모든 인덱스를 포함하여 병합합니다. df2에 해당 인덱스가 없으면, 해당 열의 값은 NaN으로 채워집니다.

-- how='right': right_index=True로 지정된 데이터프레임(df2)의 모든 인덱스를 포함하여 병합합니다. df1에 해당 인덱스가 없으면, 해당 열의 값은 NaN으로 채워집니다.

In [21]:
# 오른쪽 데이터프레임의 인덱스가 사실은 학번이었다면?
# 왼쪽은 학번을 기준으로, 오른쪽은 인덱스를 기준으로 병합
merged_df2 = pd.merge(df1, df2, left_on='학번', right_index=True, how='inner')
merged_df2

Unnamed: 0,학번,이름,학과,학년,학점
0,1,아이유,철학,2,1.5
1,2,김연아,경영학,4,2.0
3,4,강감찬,물리학,3,4.1


In [24]:
# 사실 index를 기반으로 결합할 때는, 데이터프레임이 제공하는 join 메서드를 활용 가능 (pd.join은 x)
# join 사용: 양쪽 데이터프레임의 인덱스를 기준으로 병합
df1.join(df2, how='inner') # on인수는 index가 디폴트로 들어가있기에 생략!

Unnamed: 0,학번,이름,학과,학년,학점
1,2,김연아,경영학,2,1.5
2,3,홍길동,컴퓨터,4,2.0


## 2. 데이터 연결: `pandas.concat`


In [28]:
# 필요 라이브러리 로딩
import numpy as np
import pandas as pd

np.random.seed(1) # 예제를 위한 고정된 난수 설정 # seed 설정을 통해 다음 번 코드 실행시에도 동일한 난수 생성되도록 고정!

```
import numpy as np

# 시드를 설정하지 않은 경우
print(np.random.rand(3))  # [0. 0. 0.] (이건 매번 달라짐)

# 시드를 설정한 경우
np.random.seed(42)
print(np.random.rand(3))  # [0.37454012 0.95071431 0.73199394] (매번 동일)
```

In [33]:
# 3x2 정수로 구성된 매트릭스 생성
df1 = pd.DataFrame(np.random.randint(0, 9, (3,2)),  # randint: 랜덤 정수 # 0과 9사이 정수를! # (3,2) : 3x2 매트릭스로
                   index=['a', 'b', 'c'],
                   columns=['one', 'two']) # dict으로 만드는 게 아니라, 직접 만드는 거라 반드시 컬럼명을 설정해줘야 한다. 
df1

Unnamed: 0,one,two
a,4,2
b,4,7
c,7,1


In [36]:
# 2x2 정수로 구성된 두번째 매트릭스 생성
df2 = pd.DataFrame(np.random.randint(0, 9, (2,2)),
                   index=['a', 'b'],
                   columns=['three', 'four'])
df2

Unnamed: 0,three,four
a,7,0
b,6,7


In [38]:
# df1 & df2 concat으로 연결
# 주의: 두개의 데이터프레임을 연결할 것이기 때문에 --> 여기서는 인수를 df1, df2 이렇게 하지 않고 두 df를 리스트에 담아 실
result_df = pd.concat([df1, df2], axis=1) # axis=1: 열방향으로 연결
result_df

Unnamed: 0,one,two,three,four
a,4,2,7.0,0.0
b,4,7,6.0,7.0
c,7,1,,


In [41]:
# 상황과 문맥에 따라 다르지만, merge로 위와 동일한 결과 얻을 수 있는 방법 존재!
# outer join으로도 concat과 같은 결과 데이터프레임을 확인 가능
merge_df = pd.merge(df1, df2, left_index=True, right_index=True, how='outer')
merge_df

Unnamed: 0,one,two,three,four
a,4,2,7.0,0.0
b,4,7,6.0,7.0
c,7,1,,


In [42]:
# 행방향 연결 : axis=0
result_df = pd.concat([df1, df2], axis=0) 
result_df

Unnamed: 0,one,two,three,four
a,4.0,2.0,,
b,4.0,7.0,,
c,7.0,1.0,,
a,,,7.0,0.0
b,,,6.0,7.0


In [43]:
# 다른 예제를 위해 새로운 데이터 생성

data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}
data2 = {
    '학번': [5, 6, 7, 8],
    '이름': ['김범수', '이을용', '이순신', '김한국'],
    '학과': ['경제학', '국문학', '경영학', '경영학']
}

# 데이터프레임으로 변환
df1 = pd.DataFrame(data1) 
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학


Unnamed: 0,학번,이름,학과
0,5,김범수,경제학
1,6,이을용,국문학
2,7,이순신,경영학
3,8,김한국,경영학


In [45]:
# pandas concat를 활용해 행방향 연결해보기
concat_df = pd.concat([df1, df2], axis=0) # 행방향 연결
# concat_df.reset_index(drop=True, inplace=True) # drop 인수를 주면서 index 컬럼을 따로 빼지 않음
concat_df

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학
0,5,김범수,경제학
1,6,이을용,국문학
2,7,이순신,경영학
3,8,김한국,경영학


In [47]:
# inplace를 통해 인덱스 리셋 --> 기존 인덱스는 컬럼이 되는데 --> 이를 자동으로 떨어뜨림(drop)
concat_df = pd.concat([df1, df2], axis=0) # 행방향 연결
concat_df.reset_index(drop=True, inplace=True) # drop 인수를 주면서 index 컬럼을 따로 빼지 않음
concat_df

Unnamed: 0,학번,이름,학과
0,1,아이유,철학
1,2,김연아,경영학
2,3,홍길동,컴퓨터
3,4,강감찬,물리학
4,5,김범수,경제학
5,6,이을용,국문학
6,7,이순신,경영학
7,8,김한국,경영학
