In [80]:
from datetime import datetime
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import platform
plt.rcParams["font.family"] = 'AppleGothic'  # 사용할 한글 폰트 설정

#### 데이터프레임의 결합
- 유니언 결합 
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 이용
        - concat([데이터프레임, 데이터프레임,..])
            - axis
                - 0(rows) : 행을 결합
                - 1(columns) : 열을 결합
            - ignore_index 
                - False(기본값) : 결합되는 인덱스들을 보존
                - True : 결합되는 인덱스를 초기화
- 조인 결합
    - 특정한 조건에 맞게 열을 결합하는 방식
    - 데이터프레임 + 데이터프레임 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있을때만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge(데이터프레임, 데이터프레임)
            - on
                - 조건식(두개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임 컬럼의 이름이 다른경우
                    - 데이터프레임의 컬럼의 이름을 변경하고 merge() 사용
                    - left_on, right_on 매개변수를 이용하여 컬럼의 이름 지정
            - how
                - left : 왼쪽의 데이터프레임을 기준으로 열 결합
                - right : 오른쪽의 데이터프레임을 기준으로 열 결합
                - inner : 두개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
                - outer : 두개의 데이터프레임의 합집합

In [81]:
data = {
    'name': ['test','test2','test3'],
    'age' : [20,30,40]
}
df = pd.DataFrame(data)

In [82]:
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [83]:
data2 = {
    'name': ['test4','test5'],
    'loc' : ['seoul','busan']
}

In [84]:
df2 = pd.DataFrame(data2)

In [85]:
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [86]:
## 단순하게 행을 결합
pd.concat([df,df2], axis=0)
pd.concat([df,df2], axis=0).reset_index(drop=True)
pd.concat([df,df2], axis=0, ignore_index = True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [87]:
## 단순하게 열을 결합
pd.concat([df,df2] , axis = 1)
pd.concat([df,df2] , axis = 1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [88]:
data = {
    'name': ['test','test2','test3'],
    'loc': ['서울','경기','강원']
    }
df3 = pd.DataFrame(data)
df3

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test3,강원


In [89]:
data2  = {
    'location' : ['서울','경기','강원','세종'],
    'code' : ['11','31','32','29']
}
df4 = pd.DataFrame(data2)
df4

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,강원,32
3,세종,29


In [90]:
## df3, df4를 조인결합
# 두개의 데이터프레임의 같은 데이터를 가진 컬럼의 이름이 다르다.
# left_on , right_on 활용하여 두개의 컬럼을 지정
pd.merge(df3, df4, how = 'right', left_on = 'loc',right_on='location')

Unnamed: 0,name,loc,location,code
0,test,서울,서울,11
1,test2,경기,경기,31
2,test3,강원,강원,32
3,,,세종,29


In [91]:
# 데이터플레임의 컬럼의 이름을 변경하고 조인결합
df4 = df4.rename(
    columns = {'location':'loc'}
)

In [92]:
# rename으로 공통의 컬럼명 변경 후 on을 활용하여 컬럼 지정
pd.merge(df3, df4, how = 'left', on='loc')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test3,강원,32


#### 데이터프레임 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 파일 로드
2. tran_1, tran_2 행 결합
3. tran_d_1, tran_d_2 단순하게 행 결합
4. 2번 과정에서 나온 데이터프레임과 3번 과정에서 나온 데이터프레임 조인결합

In [93]:
t1 = pd.read_csv('../csv/tran_1.csv')
t2 = pd.read_csv('../csv/tran_2.csv')
td1 = pd.read_csv('../csv/tran_d_1.csv')
td2 = pd.read_csv('../csv/tran_d_2.csv')

In [94]:
df1 = pd.concat([t1,t2],axis=0,ignore_index=True)
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6786 entries, 0 to 6785
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  6786 non-null   object
 1   price           6786 non-null   int64 
 2   payment_date    6786 non-null   object
 3   customer_id     6786 non-null   object
dtypes: int64(1), object(3)
memory usage: 212.2+ KB


In [95]:
df2 = pd.concat([td1,td2],axis=0,ignore_index=True)
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   detail_id       7144 non-null   int64 
 1   transaction_id  7144 non-null   object
 2   item_id         7144 non-null   object
 3   quantity        7144 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 223.4+ KB


In [96]:
df1.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865


In [97]:
total_df = pd.merge(df1,df2,how = 'left',on='transaction_id')

In [98]:
total_df['transaction_id'].describe()

count            7144
unique           6786
top       T0000000790
freq                4
Name: transaction_id, dtype: object

In [99]:
item_master = pd.read_csv('../csv/item_master.csv')
item_master.head()

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [100]:
# total_df, item_master 조인결합
total_df = pd.merge(total_df, item_master, how='left',on='item_id')

In [101]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [102]:
time = pd.to_datetime(total_df['payment_date'], format = '')
time

0      2019-02-01 01:36:57
1      2019-02-01 01:37:23
2      2019-02-01 02:34:19
3      2019-02-01 02:47:23
4      2019-02-01 04:33:46
               ...        
7139   2019-07-31 21:20:44
7140   2019-07-31 21:52:48
7141   2019-07-31 23:35:25
7142   2019-07-31 23:39:35
7143   2019-07-31 23:41:38
Name: payment_date, Length: 7144, dtype: datetime64[ns]

In [103]:
total_df['payment_date'] = time
total_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  7144 non-null   object        
 1   price           7144 non-null   int64         
 2   payment_date    7144 non-null   datetime64[ns]
 3   customer_id     7144 non-null   object        
 4   detail_id       7144 non-null   int64         
 5   item_id         7144 non-null   object        
 6   quantity        7144 non-null   int64         
 7   item_name       7144 non-null   object        
 8   item_price      7144 non-null   int64         
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 558.1+ KB


In [104]:
from datetime import datetime

In [105]:
## 시계열 데이터에서 요일을 추출하여 파생변수에 담는다.
# case1
total_df['payment_date'].map(lambda x : x.strftime('%A'))

0          Friday
1          Friday
2          Friday
3          Friday
4          Friday
          ...    
7139    Wednesday
7140    Wednesday
7141    Wednesday
7142    Wednesday
7143    Wednesday
Name: payment_date, Length: 7144, dtype: object

In [106]:
# case2 (Series에서 시계열 데이터 함수를 사용)
total_df['week'] = total_df['payment_date'].dt.strftime('%w')

In [107]:
total_df['payment_date'].dt.weekday

0       4
1       4
2       4
3       4
4       4
       ..
7139    2
7140    2
7141    2
7142    2
7143    2
Name: payment_date, Length: 7144, dtype: int64

In [108]:
total_df

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,5
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,5
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000,5
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000,5
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000,5
...,...,...,...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1,PC-D,180000,3
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1,PC-B,85000,3
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2,PC-A,50000,3
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1,PC-B,85000,3


In [109]:
## price2컬럼을 생성하여 quantity*item_price
total_df['price2'] = total_df['quantity'] * total_df['item_price']

In [110]:
## 요일별 price2의 합계 , 개수 확인
#case1
total_df[['week','price2']].groupby('week').agg(['sum','count'])

Unnamed: 0_level_0,price2,price2
Unnamed: 0_level_1,sum,count
week,Unnamed: 1_level_2,Unnamed: 2_level_2
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016


In [111]:
#case2
total_df.pivot_table(
    index = 'week',
    values = 'price2',
    aggfunc = ['sum','count']
)

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,price2,price2
week,Unnamed: 1_level_2,Unnamed: 2_level_2
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016


In [112]:
#case3
tt = total_df.groupby('week')['price2'].sum().reset_index()['price2']
cnt = total_df[['week','price2']].groupby(['week']).count()['price2']
cnt.reset_index(drop=True, inplace = True)
pd.concat([tt,cnt],axis=1 )

Unnamed: 0,price2,price2.1
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016
