#### 데이터프레임의 결합
- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 이용                                 # 보통은 행 결합 시 많이 사용한다.
        - concat([데이터프레임, 데이터프레임, .. ])                        # 데이터프레임이 리스트로 묶여 매개변수에 들어간다. 개수가 상관없다.
            - 매개변수
            - axis 
                - 0(rows)(기본값) : 행을 결합  
                - 1(columns) : 열을 결합 
            - ignore_index
                - False(기본값) : 결합되는 인덱스들을 보존
                - True : 결합되는 인덱스들을 초기화 

- 조인 결합
    - 특정한 조건에 맞게 열을 결합하는 방식
    - 데이터프레임 + 데이터프레임 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있을 때만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge( 데이터프레임, 데이터프레임 )                              # 두개의 데이터프레임이 각각의 매개변수로 들어간다. 2개의 데이터프레임만 가능하다.
            - 매개변수
            - on 
                - 조건식(두개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임의 컬럼의 이름이 다른 경우 (데이터 정보는 동일한데 ex둘 다 item 이름을 나타내는 데이터 but col이름이 다름)
                    - 1.데이터프레임 컬럼의 이름을 변경하고 merge() 사용
                    - 2.left_on, right_on 매개변수를 이용하여 컬럼의 이름 지정
            - how
                - left : 왼쪽의 데이터프레임을 기준으로 열 결합
                - right : 오른쪽의 데이터프레임을 기준으로 열 결합
                - inner : 두개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
                - outer : 두개의 데이터프레임의 합집합

In [8]:
import pandas as pd

In [9]:
data = {
    'name' : ['test', 'test2', 'test3'],
    'age' : [20, 30, 40]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [10]:
data2 = {
    'name' : ['test4', 'test5'],
    'loc' : ['seoul', 'busan']
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [11]:
## 단순하게 행을 결합
pd.concat(
    [df,df2],
    axis = 0,
    ignore_index = True                                # pd.concat([df, df2], axis = 0).reset_index(drop = True)
)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [12]:
pd.concat([df,df2], axis = 1, ignore_index = True)                        # 컬럼을 기준으로 결합하였으니 얘들의 인덱스는 컬럼명이다. 

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [13]:
data = {
    'name' : ['test', 'test2', 'test3' ],
    'loc' : ['서울', '경기', '강원']
}
df3 = pd.DataFrame(data)
df3

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test3,강원


In [14]:
data2 = {
    'location' : ['서울', '경기', '강원', '세종'],
    'code' : ['11','31','32','29']
}
df4 = pd.DataFrame(data2)
df4

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,강원,32
3,세종,29


In [37]:
## df3, df4를 조인결합
# 두개의 데이터프레임의 같은 데이터를 가진 컬럼의 이름이 다르다.
# 이럴 때는 on을 적어도 조인결합이 되지 않는다. 
# left_on과 right_on을 이용하여 두개의 컬럼을 지정
pd.merge(df3, df4, how = 'outer', left_on = 'loc', right_on = 'location')

Unnamed: 0,name,loc,location,code
0,test3,강원,강원,32
1,test2,경기,경기,31
2,test,서울,서울,11
3,,,세종,29


In [24]:
# 데이터프레임의 컬럼의 이름을 변경하고 조인결합
df4.rename(
    columns = {
        'location' : 'loc'
    },
    inplace = True
)
pd.merge(df3,df4, how = 'left', on = 'loc')


Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test3,강원,32


#### 데이터프레임의 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 4개의 파일 로드
2. tran_1, tran_2 단순하게 행을 결합 
3. tran_d_1, tran_d_2 단순하게 행을 결합 
4. 2번 과정에서 나온 데이터 프레임과 3번과정에서 나온 데이터 프레임 조인 결합

In [27]:
tran_1 = pd.read_csv("../../csv/tran_1.csv")
tran_2 = pd.read_csv("../../csv/tran_2.csv")
tran_d1 = pd.read_csv("../../csv/tran_d_1.csv")
tran_d2 = pd.read_csv("../../csv/tran_d_2.csv")

In [29]:
tran_1.head(2)


Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019


In [30]:
tran_2.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000005113,295000,2019-06-15 07:20:27,TS169261
1,T0000005114,50000,2019-06-15 07:35:47,HI599892
2,T0000005115,85000,2019-06-15 07:56:36,HI421757
3,T0000005116,50000,2019-06-15 08:40:55,OA386378
4,T0000005117,120000,2019-06-15 08:44:23,TS506913


In [33]:
tran_12 = pd.concat([tran_1, tran_2], ignore_index = True)

In [35]:
tran_d12 = pd.concat([tran_d1, tran_d2], ignore_index = True)

In [36]:
tran_12.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865


In [37]:
tran_d12.head()

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2


In [39]:
tran_total = pd.merge(tran_12, tran_d12, how = 'inner')
tran_total

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2
...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1


In [41]:
tran_12.describe()

Unnamed: 0,price
count,6786.0
mean,143108.605953
std,77597.965237
min,50000.0
25%,85000.0
50%,120000.0
75%,210000.0
max,750000.0


In [42]:
tran_d12.describe()

Unnamed: 0,detail_id,quantity
count,7144.0,7144.0
mean,3571.5,1.199888
std,2062.439494,0.513647
min,0.0,1.0
25%,1785.75,1.0
50%,3571.5,1.0
75%,5357.25,1.0
max,7143.0,4.0


In [44]:
tran_total.isna().sum()

transaction_id    0
price             0
payment_date      0
customer_id       0
detail_id         0
item_id           0
quantity          0
dtype: int64

In [45]:
tran_d12.isna().sum()

detail_id         0
transaction_id    0
item_id           0
quantity          0
dtype: int64

In [57]:
tran_d12['transaction_id'].describe()                            # df.describe()니까 원래 문자열에 쓰는 건 아닌데, 결과 잘 나온다.

count            7144
unique           6786
top       T0000000790
freq                4
Name: transaction_id, dtype: object

In [56]:
tran_total['transaction_id'].describe()

count            7144
unique           6786
top       T0000000790
freq                4
Name: transaction_id, dtype: object

In [None]:
# -------------------------------------- 수업 내용

In [53]:
## tran_1, tran_2 단순한 행 결합
tran = pd.concat([tran_1, tran_2], axis = 0, ignore_index = True)
tran

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865
...,...,...,...,...
6781,T0000006894,180000,2019-07-31 21:20:44,HI400734
6782,T0000006895,85000,2019-07-31 21:52:48,AS339451
6783,T0000006896,100000,2019-07-31 23:35:25,OA027325
6784,T0000006897,85000,2019-07-31 23:39:35,TS624738


In [60]:
# transaction_id가 유니크한 값인 지 확인
tran.isna().any()                           # tran.isna().sum()

transaction_id    False
price             False
payment_date      False
customer_id       False
dtype: bool

In [61]:
tran['transaction_id'].value_counts()                 # 1 1 1 1 1 1 ... 1 1 1   가장 많은 개수의 데이터가 맨 처음 나오므로 1 1 1 1 은 다 유니크하다는 의미

transaction_id
T0000000113    1
T0000004645    1
T0000004643    1
T0000004642    1
T0000004641    1
              ..
T0000002372    1
T0000002371    1
T0000002370    1
T0000002369    1
T0000006898    1
Name: count, Length: 6786, dtype: int64

In [62]:
len(tran['transaction_id'].unique())

6786

In [65]:
tran_d = pd.concat([tran_d1 , tran_d2], axis = 0, ignore_index = True)
tran_d          # 보통 df에서 primary 키가 존재한다. 여기서는 detail_id가 primary key. 

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2
...,...,...,...,...
7139,7139,T0000006894,S004,1
7140,7140,T0000006895,S002,1
7141,7141,T0000006896,S001,2
7142,7142,T0000006897,S002,1


In [74]:
# tran과 tran_d 조인 결합
total_df = pd.merge(tran, tran_d, how = 'left', on = 'transaction_id')
total_df

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2
...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1


In [75]:
## item_master.csv 파일 로드
item_master = pd.read_csv("../../csv/item_master.csv")
item_master.head()

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [77]:
item_master.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   item_id     5 non-null      object
 1   item_name   5 non-null      object
 2   item_price  5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes


In [76]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2


In [78]:
# total_df, item_master 조인 결합
total_df = pd.merge(total_df, item_master, how = 'left', on = 'item_id')

In [80]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [None]:
total_df.info()

In [83]:
## payment_date 컬럼의 데이터의 타입을 시계열 데이터로 변경
pd.to_datetime(
    total_df['payment_date']
    # format = '%Y-%m-%d %H:%M:%S'              일반적인 형태이므로 안적어줘도 된다.
)
# 결과 스리즈 형태로 나온다.

0      2019-02-01 01:36:57
1      2019-02-01 01:37:23
2      2019-02-01 02:34:19
3      2019-02-01 02:47:23
4      2019-02-01 04:33:46
               ...        
7139   2019-07-31 21:20:44
7140   2019-07-31 21:52:48
7141   2019-07-31 23:35:25
7142   2019-07-31 23:39:35
7143   2019-07-31 23:41:38
Name: payment_date, Length: 7144, dtype: datetime64[ns]

In [84]:
total_df['payment_date'] = pd.to_datetime(total_df['payment_date'])

In [86]:
total_df.info()                       # payment_date가 시계열로 바뀐 것을 알 수 있다. 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  7144 non-null   object        
 1   price           7144 non-null   int64         
 2   payment_date    7144 non-null   datetime64[ns]
 3   customer_id     7144 non-null   object        
 4   detail_id       7144 non-null   int64         
 5   item_id         7144 non-null   object        
 6   quantity        7144 non-null   int64         
 7   item_name       7144 non-null   object        
 8   item_price      7144 non-null   int64         
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 502.4+ KB


In [87]:
from datetime import datetime 

In [90]:
## 시계열 데이터에서 요일을 추출하여 파생변수에 담는다.
# case1 (map함수 + lambda)
total_df['payment_date'].map(
    lambda x : x.strftime('%a')    
) 

0       Fri
1       Fri
2       Fri
3       Fri
4       Fri
       ... 
7139    Wed
7140    Wed
7141    Wed
7142    Wed
7143    Wed
Name: payment_date, Length: 7144, dtype: object

In [92]:
# case2 (Series에서 시계열데이터 함수를 이용)
total_df['week'] = total_df['payment_date'].dt.strftime('%w')

In [94]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,5
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,5
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000,5
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000,5
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000,5


In [None]:
## price2 컬럼을 생성해서 quantity * item_price
total_df['price2'] = total_df['quantity'] * total_df['item_price']
total_df

In [109]:
## 요일별 price의 합계, 거래 개수를 확인 
total_df[['week', 'price2']].groupby('week').agg(['sum','count'])

Unnamed: 0_level_0,price2,price2
Unnamed: 0_level_1,sum,count
week,Unnamed: 1_level_2,Unnamed: 2_level_2
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016


In [112]:
total_df.pivot_table(
    index = 'week',
    values = 'price2',
    aggfunc = ['sum', 'count']
)

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,price2,price2
week,Unnamed: 1_level_2,Unnamed: 2_level_2
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016
