#### 데이터 프레임의 결합

- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 사용
        - concat( [데이터 프레임, 데이터 프레임, ...] ) # list 형태이기에 인자값으로 여러 데이터 프레임을 받을 수 있음
            - axis
                - 0 | rows == 행을 결합
                - 1 | columns == 열을 결합
            - ignore_index
                - False (Default) == 결합되는 index, column들을 보존
                - True == 결합되는 index, column들을 초기화

- join 결합
    - 특정한 조건에 맞게 열을 결합하는 방식
    - 데이터 프레임 + 데이터 프레임 join결합 == 특정 column 의 데이터들이 같은 값들로 이루어져 있을 때만 열을 추가하는 결합
         - pandas에 내장된 merge() 함수 사용
            - merge(데이터프레임, 데이터프레임) # 인자값으로 두 개의 데이터 프레임 필요
                - on
                    - 조건식(두 개의 데이터 프레임이 공통적으로 가지고 있는 column의 이름)
                    - 두 데이터프레임의 column의 이름이 다른 경우
                        - 데이터 프레임의 column의 이름을 변경 후 merge() 사용
                        - left_on, right_on 매개변수를 사용하여 column의 이름 지정
                - how
                    - left == 왼쪽의 데이터프레임을 기준으로 열 결합
                    - right == 오른쪽의 데이터프레임을 기준으로 열 결합
                    - inner == 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
                    - outer == 두 개의 데이터프레임의 합집합 (MySQL에서의 full)


In [2]:
import pandas as pd

In [3]:
data = {
    'name' : ['test', 'test2', 'test3'],
    'age' : [20, 30, 40]
}

df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [5]:
data2 = {
    'name' : ['test4', 'test5'],
    'loc' : ['seoul', 'busan']
}

df2 = pd.DataFrame(data2)


In [6]:

df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [7]:
# 단순하게 행을 결합

pd.concat([df, df2], axis= 0)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [8]:
# 원본 데이터 프레임의 index 삭제 후 재지정

pd.concat([df, df2], axis= 0).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [9]:
# 원본 데이터 프레임의 index 초기화

pd.concat([df, df2], axis= 0, ignore_index= True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [10]:
## 단순하게 열을 결합

pd.concat([df, df2], axis= 1)

Unnamed: 0,name,age,name.1,loc
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [11]:
pd.concat([df, df2], axis= 1, ignore_index= True) # 열로 결합했기에 column의 이름들이 초기화

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [12]:
data3 = {
    'name' : ['test', 'test2', 'test3'],
    'loc' : ['서울', '경기', '강원']
}

df3 = pd.DataFrame(data3)
df3

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test3,강원


In [13]:
data4 = {
    'location' : ['서울', '경기', '강원', '세종'],
    'code' : ['11', '31', '32', '29']
}

df4 = pd.DataFrame(data4)

df4

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,강원,32
3,세종,29


In [14]:
# join 결합하려는 column들의 이름이 다를 때
    # 두 개의 데이터프레임의 같은 데이터를 가진 column의 이름이 다르다

    # merge(left_on = , right_on = )
pd.merge(df3, df4, how= 'left', left_on= 'loc', right_on= 'location')

Unnamed: 0,name,loc,location,code
0,test,서울,서울,11
1,test2,경기,경기,31
2,test3,강원,강원,32


In [15]:
    # 데이터 프레임의 column의 이름을 변경

df4_1 = df4.copy()

df4_1.rename(columns= {'location' : 'loc'}, inplace= True)

pd.merge(df3, df4_1, how= 'left', on= 'loc')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test3,강원,32


#### 데이터 프레임의 결합 예제

1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 파일 로드
2. tran_1, tran_2 단순하게 행을 결합
3. tran_d_1, tran_d_2 단순하게 행을 결합
4. 2번 과정에서 나온 데이터 프레임과 3번 과정에서 나온 데이터 프레임 join결합


In [16]:
tran_1 = pd.read_csv('../../csv/tran_1.csv')
tran_2 = pd.read_csv('../../csv/tran_2.csv')
tran_d_1 = pd.read_csv('../../csv/tran_d_1.csv')
tran_d_2 = pd.read_csv('../../csv/tran_d_2.csv')


In [17]:
tran_n = pd.concat([tran_1, tran_2], axis= 0, ignore_index= True)

tran_n.sort_values('transaction_id')

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865
...,...,...,...,...
6781,T0000006894,180000,2019-07-31 21:20:44,HI400734
6782,T0000006895,85000,2019-07-31 21:52:48,AS339451
6783,T0000006896,100000,2019-07-31 23:35:25,OA027325
6784,T0000006897,85000,2019-07-31 23:39:35,TS624738


In [18]:
tran_d_n = pd.concat([tran_d_1, tran_d_2], axis= 0, ignore_index= True)

tran_d_n.sort_values('transaction_id')

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2
...,...,...,...,...
7139,7139,T0000006894,S004,1
7140,7140,T0000006895,S002,1
7141,7141,T0000006896,S001,2
7142,7142,T0000006897,S002,1


In [19]:
why7144 = pd.merge(tran_n, tran_d_n, how = 'left', on= 'transaction_id')

In [20]:
why7144['transaction_id'].value_counts()
tran_n['transaction_id'].value_counts()
tran_d_n['transaction_id'].value_counts()

transaction_id
T0000000790    4
T0000005598    3
T0000000231    3
T0000000547    3
T0000000683    3
              ..
T0000002420    1
T0000002419    1
T0000002418    1
T0000002417    1
T0000006898    1
Name: count, Length: 6786, dtype: int64

In [21]:
tran_n['transaction_id'].describe() # 오 문자열에 describe() 써도 unique 값들 나오네

count            6786
unique           6786
top       T0000000113
freq                1
Name: transaction_id, dtype: object

In [22]:
tran_d_n['transaction_id'].describe() # 이게 문제였구만

count            7144
unique           6786
top       T0000000790
freq                4
Name: transaction_id, dtype: object

In [23]:
# item_master.csv 파일 로드

item_master = pd.read_csv('../../csv/item_master.csv')

In [24]:
# tran_d_n, item_master join 결합

total_df = pd.merge(why7144, item_master, how = 'left', on = 'item_id')

In [25]:
total_df

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000
...,...,...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1,PC-D,180000
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1,PC-B,85000
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2,PC-A,50000
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1,PC-B,85000


In [26]:
total_df.head(3)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000


In [27]:
## payment_date column의 데이터의 타입을 시계열 테이터로 변경

total_df['payment_date'] = pd.to_datetime(total_df['payment_date'])

total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  7144 non-null   object        
 1   price           7144 non-null   int64         
 2   payment_date    7144 non-null   datetime64[ns]
 3   customer_id     7144 non-null   object        
 4   detail_id       7144 non-null   int64         
 5   item_id         7144 non-null   object        
 6   quantity        7144 non-null   int64         
 7   item_name       7144 non-null   object        
 8   item_price      7144 non-null   int64         
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 502.4+ KB


In [28]:
## 시계열 데이터에서 요일을 추출하여 파생변수에 대입
    # map()함수 + lambda 함수
total_df['week'] = total_df['payment_date'].map(
    lambda x : x.strftime('%a')
)

In [29]:
    # series에서 시계열 함수를 사용
        # weekday는 0 = 월, 일 = 6

'''total_df['payment_date'].dt.weekday'''

"total_df['payment_date'].dt.weekday"

In [30]:
total_df

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,Fri
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,Fri
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000,Fri
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000,Fri
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000,Fri
...,...,...,...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1,PC-D,180000,Wed
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1,PC-B,85000,Wed
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2,PC-A,50000,Wed
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1,PC-B,85000,Wed


In [31]:
## price2 column을 생성해서 quantity * item_price

total_df['price2'] = total_df['quantity'] * total_df['item_price']

In [32]:
## 요일별 price2의 합계, 갯수를 확인

donk = total_df[['week', 'price2']].groupby('week').agg(['sum', 'count'])

In [33]:
donk

Unnamed: 0_level_0,price2,price2
Unnamed: 0_level_1,sum,count
week,Unnamed: 1_level_2,Unnamed: 2_level_2
Fri,144570000,1063
Mon,131370000,988
Sat,140625000,1016
Sun,140785000,1051
Thu,136720000,992
Tue,137995000,1012
Wed,139070000,1022


In [34]:
total_df.pivot_table( # 이거 생각 잘 안 났던 거였어서 복습해야해
    index = 'week',
    values= 'price2',
    aggfunc= ['sum', 'count']
)

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,price2,price2
week,Unnamed: 1_level_2,Unnamed: 2_level_2
Fri,144570000,1063
Mon,131370000,988
Sat,140625000,1016
Sun,140785000,1051
Thu,136720000,992
Tue,137995000,1012
Wed,139070000,1022
