In [1]:
# 병합과 연결

# 데이터 처리를 위해 여러 파일을 하나로 묶어 사용할 때가 있음
    # 이 경우 병합(merge), 연결(concatenate)의 개념을 사용

# 판다스는 SQL과 거의 동일한 기능을 제공 => 사용자가 편하게 데이터를 다룰수 있도록 지원

In [2]:
# 병합(merge)
    # 두 개의 데이터를 특정한 기준을 가지고 하나로 통합하는 작업

# SQL에서는 조인(join)이라는 표현을 많이 사용
    # 내부 조인(inner join) : 교집합
        # 두 테이블을 병합하는 키 값을 기준으로 두 테이블에 모두 존재하는 키 값의 행끼리 병합
    # 완전 조인(full join) : 합집합
        # 동일한 키 값을 가진 행은 통합, 하나라도 키 값이 존재하지 않는다면 존재하는 쪽의 데이터만 남김
    # 왼쪽 조인(left join) : 왼쪽 테이블의 요소만
        # 왼쪽 테이블 기준 같은 키 값을 소유한 행을 병합, 오른쪽 테이블에 해당 키 값이 없다면 해당 행 삭제
    # 오른쪽 조인(right join) : 오른쪽 테이블의 요소만
        # 오른쪽 테이블 기준 같은 키 값을 소유한 행을 병합, 왼쪽 테이블에 해당 키 값이 없다면 해당 행 삭제

In [3]:
# 내부 조인(inner join)

import pandas as pd

raw_data = {
    'subject_id' : ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'test_score' : [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]
    }

df_left = pd.DataFrame(raw_data, columns = ['subject_id', 'test_score'])
df_left

Unnamed: 0,subject_id,test_score
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


In [4]:
raw_data = {
    'subject_id' : ['4', '5', '6', '7', '8'],
    'first_name' : ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
    'last_name' : ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']
}

df_right = pd.DataFrame(raw_data, columns= ['subject_id', 'first_name', 'last_name'])
df_right

Unnamed: 0,subject_id,first_name,last_name
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


In [5]:
# df_left, df_right에서 subject_id를 기준으로 내부 조인 수행
    # 키 값이 되는 subject_id 열의 값이 두 테이블에 모두 존재해야만 병합되어 하나의 테이블로 나타냄

pd.merge(left= df_left, right= df_right, how= 'inner', on= 'subject_id')
# subject_id의 값이 1, 2, 3, 9, 10, 11은 왼쪽, 6은 오른쪽에만 존재
    # 해당 값은 내부조인이 일어나면 버려짐

Unnamed: 0,subject_id,test_score,first_name,last_name
0,4,61,Billy,Bonder
1,5,16,Brian,Black
2,7,14,Bryce,Brice
3,8,15,Betty,Btisan


In [6]:
# 때에 따라서 왼쪽 테이블과 오른쪽 테이블의 키 값이 각각 다를 수 있음
    # left_on, right_on 매개변수 사용

pd.merge(left= df_left, right= df_right, how= 'inner', left_on= 'subject_id', right_on= 'subject_id')

Unnamed: 0,subject_id,test_score,first_name,last_name
0,4,61,Billy,Bonder
1,5,16,Brian,Black
2,7,14,Bryce,Brice
3,8,15,Betty,Btisan


In [7]:
# 왼쪽 조인(left join), 오른쪽 조인(right join)

pd.merge(df_left, df_right, 'left', 'subject_id'), pd.merge(df_left, df_right, 'right', 'subject_id')
# 왼쪽 : 왼쪽 테이블의 1, 2, 3, 9, 10, 11의 first_name, last_name 값이 NaN으로 출력
# 오른쪽 : 오른쪽 테이블의 6의 test_score 값이 NaN으로 출력

(  subject_id  test_score first_name last_name
 0          1          51        NaN       NaN
 1          2          15        NaN       NaN
 2          3          15        NaN       NaN
 3          4          61      Billy    Bonder
 4          5          16      Brian     Black
 5          7          14      Bryce     Brice
 6          8          15      Betty    Btisan
 7          9           1        NaN       NaN
 8         10          61        NaN       NaN
 9         11          16        NaN       NaN,
   subject_id  test_score first_name last_name
 0          4        61.0      Billy    Bonder
 1          5        16.0      Brian     Black
 2          6         NaN       Bran   Balwner
 3          7        14.0      Bryce     Brice
 4          8        15.0      Betty    Btisan)

In [8]:
# 완전 조인

pd.merge(df_left, df_right, how= 'outer', on= 'subject_id')
# how 매개변수에 'outer' 키워드 넣기

Unnamed: 0,subject_id,test_score,first_name,last_name
0,1,51.0,,
1,2,15.0,,
2,3,15.0,,
3,4,61.0,Billy,Bonder
4,5,16.0,Brian,Black
5,7,14.0,Bryce,Brice
6,8,15.0,Betty,Btisan
7,9,1.0,,
8,10,61.0,,
9,11,16.0,,


In [9]:
# 연결(concatenate) => 'concat'이라 표현

# 병합과는 달리 두 테이블을 그대로 붙임
# 데이터의 스키마가 동일한 데이터끼리 그대로 연결해서 사용하는 경우 연결을 사용

# 세로, 가로로 데이터를 연결함
    # 일반적으로 많이 사용하는 경우는 데이터를 세로로 붙이는 경우

In [10]:
# 연결함수는 크게 concat, append가 존재
    # concat : 두 개의 서로 다른 테이블을 하나의 테이블로 합치는 방식
    # append : 기존 하나의 테이블에 다른 테이블을 붙이는 방식

import os
filenames = [os.path.join("c:/Machine_Learning (git)/chapter04", filename) for filename in os.listdir("c:/Machine_Learning (git)/chapter04") if "sales" in filename]

print(filenames)

['c:/Machine_Learning (git)/chapter04\\sales-feb-2014.xlsx', 'c:/Machine_Learning (git)/chapter04\\sales-jan-2014.xlsx', 'c:/Machine_Learning (git)/chapter04\\sales-mar-2014.xlsx']


In [11]:
# 아래 코드는 위에서 나온 세 개의 파일을 데이터프레임 형태로 차례대로 읽어오는 코드
# !pip install --user --upgrade openpyxl
    # vscode에선 pip install --upgrade pip 후 pip install openpyxl

df_list = [pd.read_excel(filename, engine= "openpyxl") for filename in filenames]
for df in df_list :
    print(type(df), len(df))

<class 'pandas.core.frame.DataFrame'> 108
<class 'pandas.core.frame.DataFrame'> 134
<class 'pandas.core.frame.DataFrame'> 142


In [12]:
# 생성된 리스트 객체를 하나의 객체로 통합하기 위해 df.concat을 사용
    # 세로로 통합하기 때문에 axis= 0으로 매개변수를 지정해야 함

# 여기서 세 가지의 데이터를 모두 통합하면 인덱스의 중복 문제 발생
    # 이를 예방하기 위해 reset_index(drop= True) 함수를 사용해 적절히 중복된 인덱스를 제거

df = pd.concat(df_list, axis= 0)
print(len(df))
df.reset_index(drop= True)

384


Unnamed: 0,account number,name,sku,quantity,unit price,ext price,date
0,383080,Will LLC,B1-20000,7,33.69,235.83,2014-02-01 09:04:59
1,412290,Jerde-Hilpert,S1-27722,11,21.12,232.32,2014-02-01 11:51:46
2,412290,Jerde-Hilpert,B1-86481,3,35.99,107.97,2014-02-01 17:24:32
3,412290,Jerde-Hilpert,B1-20000,23,78.90,1814.70,2014-02-01 19:56:48
4,672390,Kuhn-Gusikowski,S1-06532,48,55.82,2679.36,2014-02-02 03:45:20
...,...,...,...,...,...,...,...
379,737550,"Fritsch, Russel and Anderson",B1-65551,12,56.24,674.88,2014-03-31 08:43:24
380,642753,Pollich LLC,S1-93683,21,92.57,1943.97,2014-03-31 11:37:34
381,412290,Jerde-Hilpert,B1-20000,30,22.38,671.40,2014-03-31 21:41:31
382,307599,"Kassulke, Ondricka and Metz",S2-16558,46,56.04,2577.84,2014-03-31 22:11:22


In [16]:
# append함수도 똑같이 사용 가능했지만 pandas v2.0.0 이후에는 append() 메소드가 아예 삭제됨

print(pd.__version__)
# 2.0.3

2.0.3


In [22]:
# axis가 0이 아니면 어떻게 될 지 궁금해서 해 본 코드

df = pd.concat(df_list, axis= 1)
print(len(df))
df.reset_index(drop = True)
# 가로로 통합 하는 듯
    # 이차원 리스트라 axis= 2 이후부터는 오류

142


Unnamed: 0,account number,name,sku,quantity,unit price,ext price,date,account number.1,name.1,sku.1,...,unit price.1,ext price.1,date.1,account number.2,name.2,sku.2,quantity.1,unit price.2,ext price.2,date.2
0,383080.0,Will LLC,B1-20000,7.0,33.69,235.83,2014-02-01 09:04:59,740150.0,Barton LLC,B1-20000,...,86.69,3380.91,2014-01-01 07:21:51,163416,Purdy-Kunde,S1-30248,19,65.03,1235.57,2014-03-01 16:07:40
1,412290.0,Jerde-Hilpert,S1-27722,11.0,21.12,232.32,2014-02-01 11:51:46,714466.0,Trantow-Barrows,S2-77896,...,63.16,-63.16,2014-01-01 10:00:47,527099,Sanford and Sons,S2-82423,3,76.21,228.63,2014-03-01 17:18:01
2,412290.0,Jerde-Hilpert,B1-86481,3.0,35.99,107.97,2014-02-01 17:24:32,218895.0,Kulas Inc,B1-69924,...,90.70,2086.10,2014-01-01 13:24:58,527099,Sanford and Sons,B1-50809,8,70.78,566.24,2014-03-01 18:53:09
3,412290.0,Jerde-Hilpert,B1-20000,23.0,78.90,1814.70,2014-02-01 19:56:48,307599.0,"Kassulke, Ondricka and Metz",S1-65481,...,21.05,863.05,2014-01-01 15:05:22,737550,"Fritsch, Russel and Anderson",B1-50809,20,50.11,1002.20,2014-03-01 23:47:17
4,672390.0,Kuhn-Gusikowski,S1-06532,48.0,55.82,2679.36,2014-02-02 03:45:20,412290.0,Jerde-Hilpert,S2-34077,...,83.21,499.26,2014-01-01 23:26:55,688981,Keeling LLC,B1-86481,-1,97.16,-97.16,2014-03-02 01:46:44
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
137,,,,,,,,,,,...,,,,737550,"Fritsch, Russel and Anderson",B1-65551,12,56.24,674.88,2014-03-31 08:43:24
138,,,,,,,,,,,...,,,,642753,Pollich LLC,S1-93683,21,92.57,1943.97,2014-03-31 11:37:34
139,,,,,,,,,,,...,,,,412290,Jerde-Hilpert,B1-20000,30,22.38,671.40,2014-03-31 21:41:31
140,,,,,,,,,,,...,,,,307599,"Kassulke, Ondricka and Metz",S2-16558,46,56.04,2577.84,2014-03-31 22:11:22
