#### 데이터프레임의 결합 
- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 이용
        - concat( [데이터프레임, 데이터프레임, ..] )
            - axis 
                - 0(rows) : 행을 결합
                - 1(columns) : 열을 결합
            - ignore_index
                - False(기본값) : 결합되는 인덱스들을 보존
                - True : 결합되는 인덱스를 초기화
- 조인 결합
    - 특정한 조건에 맞게 열을 결합하는 방식
    - 데이터프레임 + 데이터프레임 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있을때만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge( 데이터프레임, 데이터프레임 )
            - on
                - 조건식(두개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임의 컬럼이 이름 다른 경우?
                    - 데이터프레임의 컬럼의 이름을 변경하고 merge() 사용
                    - left_on, right_on 매개변수를 이용하여 컬럼의 이름 지정
            - how 
                - left : 왼쪽의 데이터프레임을 기준으로 열 결합
                - right : 오른쪽의 데이터프레임을 기준으로 열 결합
                - inner : 두개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
                - outer : 두개의 데이터프레임의 합집합


In [None]:
import pandas as pd

In [None]:
data = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df = pd.DataFrame(data)
df

In [None]:
data2 = {
    'name' : ['test4', 'test5'], 
    'loc' : ['seoul', 'busan']
}
df2 = pd.DataFrame(data2)
df2

In [None]:
## 단순하게 행을 결합 
pd.concat( [df, df2] , axis=0 )
pd.concat( [df, df2], axis=0 ).reset_index(drop=True)
pd.concat( [df, df2] , axis=0, ignore_index=True )

In [None]:
## 단순하게 열을 결합 
pd.concat( [df, df2], axis=1 )
pd.concat( [df, df2], axis=1 , ignore_index=True)

In [None]:
data = {
    'name' : ['test', 'test2', 'test3'],
    'loc' : ['서울', '경기', '강원']
}
df3 = pd.DataFrame(data)
df3

In [None]:
data2 = {
    'location' : ['서울', '경기', '강원', '세종'], 
    'code' : ['11', '31', '32', '29']
}
df4 = pd.DataFrame(data2)
df4

In [None]:
## df3, df4를 조인결합 
# 두개의 데이터프레임의 같은 데이터를 가진 컬럼의 이름이 다르다. 
# left_on, right_on을 이용하여 두개의 컬럼을 지정
pd.merge(df3, df4, how='left', left_on='loc', right_on='location')

In [None]:
# 데이터프레임의 컬럼의 이름을 변경하고 조인결합
df4.rename(
    columns = {
        'location' : 'loc'
    }, 
    inplace=True
)

In [None]:
pd.merge(df3, df4, how='left', on='loc')

#### 데이터프레임의 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 4개의 파일 로드 
2. tran_1, tran_2 단순하게 행을 결합 
3. tran_d_1, tran_d_2 단순하게 행을 결합 
4. 2번과정에서 나온 데이터프레임과 3번 과정에서 나온 데이터프레임 조인결합

In [None]:
tran_1 = pd.read_csv("../../csv/tran_1.csv")
tran_2 = pd.read_csv('../../csv/tran_2.csv')
tran_d1 = pd.read_csv('../../csv/tran_d_1.csv')
tran_d2 = pd.read_csv('../../csv/tran_d_2.csv')

In [None]:
## tran_1, tran_2 단순한 행 결합 
tran = pd.concat( [tran_1, tran_2] , axis=0, ignore_index=True)
tran

In [None]:
tran.isna().sum()

In [None]:
tran['transaction_id'].describe()

In [None]:
len(tran['transaction_id'].unique())

In [None]:
tran_d = pd.concat([tran_d1, tran_d2], axis=0, ignore_index=True)
tran_d

In [None]:
# tran과 tran_d 조인 결합
total_df = pd.merge(tran, tran_d, how = 'left', on = 'transaction_id')
total_df

In [None]:
# item_master.csv 파일 로드 
item_master = pd.read_csv('../../csv/item_master.csv')
item_master.info()

In [None]:
total_df.head(1)

In [None]:
# total_df, item_master 조인결합 
total_df = pd.merge(total_df, item_master, how='left', on='item_id')

In [32]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [31]:
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  7144 non-null   object
 1   price           7144 non-null   int64 
 2   payment_date    7144 non-null   object
 3   customer_id     7144 non-null   object
 4   detail_id       7144 non-null   int64 
 5   item_id         7144 non-null   object
 6   quantity        7144 non-null   int64 
 7   item_name       7144 non-null   object
 8   item_price      7144 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 502.4+ KB


In [34]:
## payment_date 컬럼의 데이터의 타입을 시계열 데이터로 변경
total_df['payment_date'] =\
      pd.to_datetime( total_df['payment_date'] )

In [None]:
total_df.info()

In [None]:
## 시계열 데이터에서 요일을 추출하여 파생변수에 담는다. 
## case1 (map함수 + lambda)
total_df['payment_date'].map(
    lambda x : x.strftime('%w')
)

In [46]:
# case2 (Series에서 시계열데이터 함수를 사용)
total_df['week'] =\
      total_df['payment_date'].dt.strftime('%w')

In [47]:
## price2 컬럼을 생성해서 quantity * item_price
total_df['price2'] = \
    total_df['quantity'] * total_df['item_price']

In [None]:
## 요일별 price2의 합계, 개수를 확인
total_df[ ['week', 'price2'] ].groupby('week').agg(['sum', 'count'])

In [51]:
total_df.pivot_table(
    index = 'week', 
    values = 'price2', 
    aggfunc= ['sum', 'count']
)

Unnamed: 0_level_0,sum,count
Unnamed: 0_level_1,price2,price2
week,Unnamed: 1_level_2,Unnamed: 2_level_2
0,140785000,1051
1,131370000,988
2,137995000,1012
3,139070000,1022
4,136720000,992
5,144570000,1063
6,140625000,1016
