- 📚 데이터 사이언티스트의 실전노트, 이지영, [비제이퍼블릭](https://bjpublic.tistory.com/) 
- 🌟 [YouTube: 통계학 & 데이터과학](https://https://www.youtube.com/channel/UC2BreMMPUd0djRpA4UEaD3Q)
- 💻 [클래스101: 데이터 과학자 실무 프로젝트 (분석+예측모델 + AWS 자동화)](https://class101.page.link/MhG4)

## 2.3 데이터 합치기

### 2.3.1. 데이터프레임 결합: pd.merge()
- Page 106

In [1]:
# 함수2: 데이터 프레임 구현 (page 226)
from IPython.core.display import display, HTML
def df_display(dfs:list, captions:list):
    """ 데이터 프레임을 나란히 보여줌       
    dfs: 데이터 프레임 리스트        
    captions: 각 데이터 테이블의 설명
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0"
    display(HTML(output))

In [2]:
import numpy as np
import pandas as pd

# 소수점 첫 번째 자리까지 표시
pd.set_option('precision', 1)

# 데이터프레임 생성
df_left = pd.DataFrame({'색': ['red', 'orange', 'yellow', 'green', 'blue'],
                        '가격': [1000, 2000, 3000, 4000, 5000]},
                         index=[9, 1, 2, 3, 4])

df_right = pd.DataFrame({'색': ['yellow', 'green', 'blue', 'navy', 'purple'],
                        '이름': ['노란색', '초록색', '파란색', '남색', '보라색']},
                         index=[3, 4, 5, 6, 7])

# 데이터프레임 df_left & df_right 확인
df_display([df_left, df_right], ['df_left', 'df_right'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색


In [3]:
# Inner Join
df_inner = pd.merge(df_left, df_right, on="색", how="inner")

# 데이터프레임 df_left & df_right, df_inner 확인
df_display([df_left, df_right, df_inner], ['df_left', 'df_right', 'df_inner'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색,가격,이름
0,yellow,3000,노란색
1,green,4000,초록색
2,blue,5000,파란색


In [4]:
# Outer Join
df_outer = pd.merge(df_left, df_right, on="색", how="outer")

# 데이터프레임 df_left & df_right, df_outer 확인
df_display([df_left, df_right, df_outer], ['df_left', 'df_right', 'df_outer'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색,가격,이름
0,red,1000.0,
1,orange,2000.0,
2,yellow,3000.0,노란색
3,green,4000.0,초록색
4,blue,5000.0,파란색
5,navy,,남색
6,purple,,보라색


In [5]:
# Left Join
df_left_join = pd.merge(df_left, df_right, on="색", how="left")

# 데이터프레임 df_left & df_right, df_left_join 확인
df_display([df_left, df_right, df_left_join], ['df_left', 'df_right', 'df_left_join'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색,가격,이름
0,red,1000,
1,orange,2000,
2,yellow,3000,노란색
3,green,4000,초록색
4,blue,5000,파란색


In [6]:
# Right Join
df_right_merge = pd.merge(df_left, df_right, on="색", how="right")

# 데이터프레임 df_left & df_right, df_right_merge 확인
df_display([df_left, df_right, df_right_merge], ['df_left', 'df_right', 'df_right_merge'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색,가격,이름
0,yellow,3000.0,노란색
1,green,4000.0,초록색
2,blue,5000.0,파란색
3,navy,,남색
4,purple,,보라색


In [7]:
# 주의점 1. 인덱스로 결합할 때
# Right Join - 인덱스 기준
df_right_merge_index = pd.merge(df_left, df_right, left_index=True, 
                                right_index=True, how="right")

# 데이터프레임 df_left & df_right, df_right_merge_index 확인
df_display([df_left, df_right, df_right_merge_index], 
           ['df_left', 'df_right', 'df_right_merge_index'])


Unnamed: 0,색,가격
9,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색_x,가격,색_y,이름
3,green,4000.0,yellow,노란색
4,blue,5000.0,green,초록색
5,,,blue,파란색
6,,,navy,남색
7,,,purple,보라색


In [8]:
# 주의점 2. 키에 중복된 값이 있을 때
# 데이터프레임 생성
df_left = pd.DataFrame({'색': ['red', 'orange', 'yellow', 'yellow', 'green', 'blue'],
                        '가격': [1000, 2000, 3000, 3000, 4000, 5000]},
                        index=[0, 1, 2, 3, 4, 5])

df_right = pd.DataFrame({'색': ['yellow', 'yellow', 'green', 'blue', 'navy', 'purple'],
                        '이름': ['노란색', '노란색', '초록색', '파란색', '남색', '보라색']},
                        index=[3, 4, 5, 6, 7, 8])

# Inner Join
df_inner = pd.merge(df_left, df_right, on="색", how="inner")

# 데이터프레임 df_left & df_right, df_inner 확인
df_display([df_left, df_right, df_inner], ['df_left', 'df_right', 'df_inner'])


Unnamed: 0,색,가격
0,red,1000
1,orange,2000
2,yellow,3000
3,yellow,3000
4,green,4000
5,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,yellow,노란색
5,green,초록색
6,blue,파란색
7,navy,남색
8,purple,보라색

Unnamed: 0,색,가격,이름
0,yellow,3000,노란색
1,yellow,3000,노란색
2,yellow,3000,노란색
3,yellow,3000,노란색
4,green,4000,초록색
5,blue,5000,파란색


In [9]:
# 데이터프레임 생성
df_left = pd.DataFrame({'색': ['red', 'orange', 'yellow', 'yellow', 'green', 'blue'],
                        '가격': [1000, 2000, 3000, 3000, 4000, 5000]},
                        index=[0, 1, 2, 3, 4, 5])

df_right = pd.DataFrame({'색': ['yellow', 'yellow', 'yellow', 'green', 'blue', 'navy', 'purple'],
                        '이름': ['노란색', '노란색', '노랑', '초록색', '파란색', '남색', '보라색']},
                        index=[6, 7, 8, 9, 10, 11, 12])
# Outer Join
df_outer = pd.merge(df_left, df_right, on="색", how="outer")

# 데이터프레임 df_left & df_right, df_outer 확인
df_display([df_left, df_right, df_outer], ['df_left', 'df_right', 'df_outer'])


Unnamed: 0,색,가격
0,red,1000
1,orange,2000
2,yellow,3000
3,yellow,3000
4,green,4000
5,blue,5000

Unnamed: 0,색,이름
6,yellow,노란색
7,yellow,노란색
8,yellow,노랑
9,green,초록색
10,blue,파란색
11,navy,남색
12,purple,보라색

Unnamed: 0,색,가격,이름
0,red,1000.0,
1,orange,2000.0,
2,yellow,3000.0,노란색
3,yellow,3000.0,노란색
4,yellow,3000.0,노랑
5,yellow,3000.0,노란색
6,yellow,3000.0,노란색
7,yellow,3000.0,노랑
8,green,4000.0,초록색
9,blue,5000.0,파란색


### 2.3.2. 데이터 프레임 결합: df_left.join(df_right, ...)
- Page 114 

In [10]:
# 데이터프레임 생성
df_left = pd.DataFrame({'색': ['red', 'orange', 'yellow', 'green', 'blue'],
                        '가격': [1000, 2000, 3000, 4000, 5000]},
                         index=[0, 1, 2, 3, 4])

df_right = pd.DataFrame({'색': ['yellow', 'green', 'blue', 'navy', 'purple'],
                        '이름': ['노란색', '초록색', '파란색', '남색', '보라색']},
                         index=[3, 4, 5, 6, 7])

# 데이터프레임 df_left & df_right 확인
df_display([df_left, df_right], ['df_left', 'df_right'])

# join 으로 데이터프레임 결합
df_right = df_left.join(df_right, how='right')


Unnamed: 0,색,가격
0,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색


ValueError: columns overlap but no suffix specified: Index(['색'], dtype='object')

In [11]:
# 인덱스 대신 열(키) 이름으로 데이터를 합칠 경우 
df_right_join_key = df_left.join(df_right.set_index(['색'], verify_integrity=True ),
                            on=[ '색' ], how='right' )

df_right_join_key


Unnamed: 0,색,가격,이름
2.0,yellow,3000.0,노란색
3.0,green,4000.0,초록색
4.0,blue,5000.0,파란색
,navy,,남색
,purple,,보라색


In [12]:
# df_left, df_right 두 개의 데이터프레임 생성
df_left = pd.DataFrame({'색_left': ['red', 'orange', 'yellow', 'green', 'blue'],
                        '가격': [1000, 2000, 3000, 4000, 5000]},
                         index=[0, 1, 2, 3, 4])

df_right = pd.DataFrame({'색_right': ['yellow', 'green', 'blue', 'navy', 'purple'],
                        '이름': ['노란색', '초록색', '파란색', '남색', '보라색']},
                         index=[3, 4, 5, 6, 7])

# 인덱스 기준으로 데이터를 합칠 경우
df_right_join = df_left.join(df_right, how='right')

# 데이터프레임 df_left, df_right, df_right_join_index 확인
df_display([df_left, df_right, df_right_join], 
           ['df_left', 'df_right', 'df_right_join'])


Unnamed: 0,색_left,가격
0,red,1000
1,orange,2000
2,yellow,3000
3,green,4000
4,blue,5000

Unnamed: 0,색_right,이름
3,yellow,노란색
4,green,초록색
5,blue,파란색
6,navy,남색
7,purple,보라색

Unnamed: 0,색_left,가격,색_right,이름
3,green,4000.0,yellow,노란색
4,blue,5000.0,green,초록색
5,,,blue,파란색
6,,,navy,남색
7,,,purple,보라색


In [13]:
# df_left, df_right 두 개의 데이터프레임 생성
df_left = pd.DataFrame({
                '색_left': ['red', 'orange', 'yellow', 'yellow', 'green', 'blue'],
                '가격': [1000, 2000, 3000, 3000, 4000, 5000]
                        }, index=[0, 1, 2, 3, 4, 5])

df_right = pd.DataFrame({
                '색_right': ['yellow', 'yellow', 'green', 'blue', 'navy', 'purple'],
                '이름': ['노란색', '노란색', '초록색', '파란색', '남색', '보라색']
                        }, index=[3, 4, 5, 6, 7, 8])

# join을 이용해 두 데이터프레임 합치기 (기본값: 인덱스)
df_right_join_index = df_left.join(df_right, how='right')

# merge를 이용해 두 데이터프레임 합치기 (인덱스 기준 설정)
df_right_merge_index = pd.merge(df_left, df_right, left_index=True, 
                                right_index=True, how="right")

# 데이터프레임 및 결과값 확인
df_display([df_left, df_right], ['df_left', 'df_right'])
df_display([df_right_join_index, df_right_merge_index], 
           ['df_right_join_index', 'df_right_merge_index'])


Unnamed: 0,색_left,가격
0,red,1000
1,orange,2000
2,yellow,3000
3,yellow,3000
4,green,4000
5,blue,5000

Unnamed: 0,색_right,이름
3,yellow,노란색
4,yellow,노란색
5,green,초록색
6,blue,파란색
7,navy,남색
8,purple,보라색


Unnamed: 0,색_left,가격,색_right,이름
3,yellow,3000.0,yellow,노란색
4,green,4000.0,yellow,노란색
5,blue,5000.0,green,초록색
6,,,blue,파란색
7,,,navy,남색
8,,,purple,보라색

Unnamed: 0,색_left,가격,색_right,이름
3,yellow,3000.0,yellow,노란색
4,green,4000.0,yellow,노란색
5,blue,5000.0,green,초록색
6,,,blue,파란색
7,,,navy,남색
8,,,purple,보라색


### 2.3.3 여러 데이터 프레임 연결: pd.concat()
- Page 121

In [14]:
df_1 = pd.DataFrame({'색1': ['red', 'orange'],
                     '이름1': ["빨간색", "주황색"]},
                      index=[0, 1,])

df_2 = pd.DataFrame({'색2': ['yellow', 'green'],
                     '이름2': ['노란색', '초록색']},
                      index=[2, 3])

df_3 = pd.DataFrame({'색3': ['blue', 'navy'],
                     '이름3': ['파란색', '남색']},
                      index=[8, 9])

# 기본값: 행(row) 기준으로 연결
result_row = pd.concat([df_1, df_2, df_3])

# 연결할 데이터프레임 확인
df_display([df_1, df_2, df_3], ['df_1', 'df_2', 'df_3'])

# 결과 데이터프레임
result_row


Unnamed: 0,색1,이름1
0,red,빨간색
1,orange,주황색

Unnamed: 0,색2,이름2
2,yellow,노란색
3,green,초록색

Unnamed: 0,색3,이름3
8,blue,파란색
9,navy,남색


Unnamed: 0,색1,이름1,색2,이름2,색3,이름3
0,red,빨간색,,,,
1,orange,주황색,,,,
2,,,yellow,노란색,,
3,,,green,초록색,,
8,,,,,blue,파란색
9,,,,,navy,남색


In [15]:
# 열 이름을 {기존:새이름}으로 설정 뒤, 데이터프레임에 다시 저장(inplace=True)
df_1.rename(columns={"색1": "색", "이름1": "이름"}, inplace=True)
df_2.rename(columns={"색2": "색", "이름2": "이름"}, inplace=True)
df_3.rename(columns={"색3": "색", "이름3": "이름"}, inplace=True)

# 기본값: 행 기준으로 결합 
result_row = pd.concat([df_1, df_2, df_3])

# 인덱스 값 확인 필요 
df_display([df_1, df_2, df_3, result_row],
           ['df_1', 'df_2', 'df_3', 'result_row'])


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
2,yellow,노란색
3,green,초록색

Unnamed: 0,색,이름
8,blue,파란색
9,navy,남색

Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색
2,yellow,노란색
3,green,초록색
8,blue,파란색
9,navy,남색


In [16]:
# ignore_index = True 설정
result_row = pd.concat([df_1, df_2, df_3], ignore_index=True)

# 인덱스 값 확인 필요 
df_display([df_1, df_2, df_3, result_row],
           ['df_1', 'df_2', 'df_3', 'result_row'])


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
2,yellow,노란색
3,green,초록색

Unnamed: 0,색,이름
8,blue,파란색
9,navy,남색

Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색
2,yellow,노란색
3,green,초록색
4,blue,파란색
5,navy,남색


In [17]:
# 데이터프레임 생성
df_1 = pd.DataFrame({'색': ['red', 'orange'],
                    '이름': ['빨간색', '주황색']},
                     index=[0, 1,])

df_2 = pd.DataFrame({'색': ['yellow', 'green'],
                     '이름': ['노란색', '초록색']},
                      index=[2, 3])

df_3 = pd.DataFrame({'색': ['blue', 'navy'],
                     '이름': ['파란색', '남색']},
                      index=[5, 6])

# axis = 1 열 방향으로 합치기 
result_col = pd.concat([df_1, df_2, df_3], axis = 1)

# 연결하려는 데이터
df_display([df_1, df_2, df_3],['df_1', 'df_2', 'df_3'])

# 결과 데이터프레임
result_col


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
2,yellow,노란색
3,green,초록색

Unnamed: 0,색,이름
5,blue,파란색
6,navy,남색


Unnamed: 0,색,이름,색.1,이름.1,색.2,이름.2
0,red,빨간색,,,,
1,orange,주황색,,,,
2,,,yellow,노란색,,
3,,,green,초록색,,
5,,,,,blue,파란색
6,,,,,navy,남색


In [18]:
# axis = 1 열 방향으로 합치기 
result_col = pd.concat([df_1, df_2, df_3], axis = 1, ignore_index=True)

# 연결하려는 데이터 및 결과 데이터 확인
df_display([df_1, df_2, df_3],['df_1', 'df_2', 'df_3'])

# 결과 데이터프레임
result_col


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
2,yellow,노란색
3,green,초록색

Unnamed: 0,색,이름
5,blue,파란색
6,navy,남색


Unnamed: 0,0,1,2,3,4,5
0,red,빨간색,,,,
1,orange,주황색,,,,
2,,,yellow,노란색,,
3,,,green,초록색,,
5,,,,,blue,파란색
6,,,,,navy,남색


In [19]:
#기존 인덱스 값을 지우고(drop=True), 0부터 다시 시작
df_2.reset_index(drop=True, inplace=True)
df_3.reset_index(drop=True, inplace=True)

result_col = pd.concat([df_1, df_2, df_3], axis=1)

# 연결하려는 데이터
df_display([df_1, df_2, df_3],['df_1', 'df_2', 'df_3'])

# 결과 데이터프레임
result_col


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
0,yellow,노란색
1,green,초록색

Unnamed: 0,색,이름
0,blue,파란색
1,navy,남색


Unnamed: 0,색,이름,색.1,이름.1,색.2,이름.2
0,red,빨간색,yellow,노란색,blue,파란색
1,orange,주황색,green,초록색,navy,남색


In [20]:
result_col["이름"]

Unnamed: 0,이름,이름.1,이름.2
0,빨간색,노란색,파란색
1,주황색,초록색,남색


In [21]:
# 열이름을 {기존:새이름}으로 설정 뒤, 데이터프레임에 다시 저장(inplace=True)
df_1.rename(columns={"색": "색1", "이름": "이름1"}, inplace=True)
df_2.rename(columns={"색": "색2", "이름": "이름2"}, inplace=True)
df_3.rename(columns={"색": "색3", "이름": "이름3"}, inplace=True)

result_row = pd.concat([df_1, df_2, df_3], axis=1)

# 연결하려는 데이터
df_display([df_1, df_2, df_3],['df_1', 'df_2', 'df_3'])

# 결과 데이터프레임
result_row


Unnamed: 0,색1,이름1
0,red,빨간색
1,orange,주황색

Unnamed: 0,색2,이름2
0,yellow,노란색
1,green,초록색

Unnamed: 0,색3,이름3
0,blue,파란색
1,navy,남색


Unnamed: 0,색1,이름1,색2,이름2,색3,이름3
0,red,빨간색,yellow,노란색,blue,파란색
1,orange,주황색,green,초록색,navy,남색


### 2.3.4 데이터 프레임, 배열, 리스트, 딕셔너리 연결: .append()
- page 130.

In [22]:
# append: axis=0 
df_1 = pd.DataFrame({'색': ['red', 'orange'],
                    '이름': ['빨간색', '주황색']},
                     index=[0, 1,])

df_2 = pd.DataFrame({'색': ['yellow', 'green', ],
                     '이름': ['노란색', '초록색']},
                      index=[2, 3])

df_3 = pd.DataFrame({'색': ['blue', 'navy'],
                     '이름': ['파란색', '남색']},
                      index=[8, 9])

# index 값을 초기화하여 데이터 연결 
result_append = df_1.append([df_2, df_3], ignore_index=True)

df_display([df_1, df_2, df_3, result_append],
           ['df_1', 'df_2', 'df_3', 'result_append'])


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색

Unnamed: 0,색,이름
2,yellow,노란색
3,green,초록색

Unnamed: 0,색,이름
8,blue,파란색
9,navy,남색

Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색
2,yellow,노란색
3,green,초록색
4,blue,파란색
5,navy,남색


In [23]:
# add_row라는 Series 생성 
add_row = pd.Series(['purple','보라색'], index=['색','이름'])
print('>>> add_row 배열\n',add_row)
print('>>> 색 이름 출력:', add_row["색"])

# result_append에 .concat()를 이용해 add_row추가 
added_concat = pd.concat([result_append, add_row], ignore_index=True)

# result_append에 .append()를 이용해 add_row추가 
added_append = result_append.append(add_row, ignore_index=True)

# result_append, concat사용, append사용했을 때 결과값 출력
df_display([result_append, added_concat, added_append],
           ['result_append', 'added_concat', 'added_append'])


>>> add_row 배열
 색     purple
이름       보라색
dtype: object
>>> 색 이름 출력: purple


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색
2,yellow,노란색
3,green,초록색
4,blue,파란색
5,navy,남색

Unnamed: 0,색,이름,0
0,red,빨간색,
1,orange,주황색,
2,yellow,노란색,
3,green,초록색,
4,blue,파란색,
5,navy,남색,
6,,,purple
7,,,보라색

Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색
2,yellow,노란색
3,green,초록색
4,blue,파란색
5,navy,남색
6,purple,보라색


In [24]:
# 네스티드 리스트(Nested list), list_ex 생성 
list_ex=[['red','빨간색']]

# list_ex에 다른 리스트 추가 
list_ex.append(['orange','주황색'])

# list_ex 출력
print('list_ex:', list_ex)
print('list_ex의 첫번째 값:', list_ex[0])
print('list_ex의 두번째 값:', list_ex[1])

# list_ex를 데이터프레임으로 전환
df_list_ex=pd.DataFrame(list_ex, columns=['색','이름'])
df_list_ex


list_ex: [['red', '빨간색'], ['orange', '주황색']]
list_ex의 첫번째 값: ['red', '빨간색']
list_ex의 두번째 값: ['orange', '주황색']


Unnamed: 0,색,이름
0,red,빨간색
1,orange,주황색


In [25]:
pd.concat([list_ex])

TypeError: cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid

⚠ 저작권: Copyright 2022. (이지영) all rights reserved. 본 자료는 저작권법에 의하여 보호받는 저작물로서 이에 대한 무단 복제 및 배포를 원칙적으로 금합니다. 협의 없이 배포하거나 무단으로 사용할 경우 저작권법 제136조, 137조, 138조 위반으로 사전 경고 없이 손해배상 청구 등 민,형사상의 책임과 처벌을 받을 수 있습니다.