### <데이터프레임 간의 결합>
- 유니언 결합
    - 단순하게 행이나 열을 결합
    - pandas 안에 존재하는 concat() 함수 사용
    - 단순한 결합 형태 -> 결합하려는 데이터프레임 개수 제한X
        - pd.concat( [데이터프레임명, 데이터프레임명, ...] ) 
            - axis 매개변수 (행/열)
                - 0(rows, 기본값): 행을 결합
                - 1(columns): 열을 결합
            - ignore_index 매개변수
                - False(기본값): 결합되는 기준을 보존
                - True: 결합되는 기준을 초기화
            - 예시
                - axis=0, ignore_index=True이면 데이터프레임이 행으로 단순결합 & 인덱스 값 초기화
                - axis=1, ignore_index=True이면 데이터프레임이 열로 단순결합 & 컬럼 값 초기화

- 조인 결합
    - 특정한 조건에 맞게 열을 결합
    - 데이터프레임과 데이터프레임을 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있을 때만 열을 추가하는 형태
    - pandas, DataFrame 두 군데 모두 존재하는 merge() 함수 사용
    - 특정 조건에 맞춰 열을 결합하기 때문에, 결합되는 데이터프레임 개수는 2개
    - 3개의 데이터프레임 결합하려면
        - merge() 함수를 2번 호출
        - pd.merge(데이터프레임, 데이터프레임2)
            - on 매개변수
                - 조건식: 두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼명
                - 두 개의 데이터프레임에서 컬럼의 이름이 다른 경우
                    - left_on, right_on 매개변수 이용 -> 각각의 데이터프레임의 컬럼명 대입
            - how 매개변수
                - inner: 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터 기준 결합
                - left: 왼쪽의 데이터프레임(첫번째 인자) 기준 결합
                - right: 오른쪽의 데이터프레임(두번째 인자) 기준 결합
                - outer: 두 개의 데이터프레임의 모든 데이터를 결합
    

In [114]:
import pandas as pd

In [115]:
# dict 안에 list로 이루어진 2차원 데이터
data = {
    'id' : ['a', 'b', 'c'],
    'password' : ['1111', '2222', '3333']
}
df1 = pd.DataFrame( data )
df1

Unnamed: 0,id,password
0,a,1111
1,b,2222
2,c,3333


In [116]:
# list 안에 dict 형태의 2차원 데이터
data2 = [
    {
        'id' : 'a', 'name' : 'kim'
    },
    {
        'id' : 'b', 'name' :'park'
    },
    {
        'id' : 'd', 'name' : 'lee'
    }
]
df2 = pd.DataFrame( data2 )
df2

Unnamed: 0,id,name
0,a,kim
1,b,park
2,d,lee


In [None]:
# list 안에 list인 2차원 데이터
data3 = [
    ['a', '01012345678'],
    ['b', '01099998888'],
    ['f', '01011112222']
]
df3 = pd.DataFrame( data3, columns=['user_id', 'phone'] )   # 컬럼명 지정
df3

Unnamed: 0,user_id,phone
0,a,1012345678
1,b,1099998888
2,f,1011112222


In [118]:
# 단순 결합 (유니언 결합)
# concat() 함수: pandas 내의 함수
# 단순한 행 결합 (컬럼의 이름이 같은 부분에 행결합)
pd.concat(
    [df1, df2]
)

Unnamed: 0,id,password,name
0,a,1111.0,
1,b,2222.0,
2,c,3333.0,
0,a,,kim
1,b,,park
2,d,,lee


In [119]:
pd.concat( 
    [df1, df2, df3],
    axis = 0,               # 기본값(행을 결합)
    ignore_index=True       # 인덱스 초기화
)

Unnamed: 0,id,password,name,user_id,phone
0,a,1111.0,,,
1,b,2222.0,,,
2,c,3333.0,,,
3,a,,kim,,
4,b,,park,,
5,d,,lee,,
6,,,,a,1012345678.0
7,,,,b,1099998888.0
8,,,,f,1011112222.0


In [120]:
#단순한 열 결합
pd.concat(
    [df1, df2, df3],
    axis=1
)

Unnamed: 0,id,password,id.1,name,user_id,phone
0,a,1111,a,kim,a,1012345678
1,b,2222,b,park,b,1099998888
2,c,3333,d,lee,f,1011112222


In [121]:
# df3의 인덱스 값 2를 4로 변경
df3.rename(
    index={2 : 4},
    inplace=True
)

In [122]:
pd.concat(
    [df1, df2, df3],
    axis=1,
    ignore_index=True       # 컬럼명 초기화 0, 1, 2, ...
)

Unnamed: 0,0,1,2,3,4,5
0,a,1111.0,a,kim,a,1012345678.0
1,b,2222.0,b,park,b,1099998888.0
2,c,3333.0,d,lee,,
4,,,,,f,1011112222.0


In [123]:
# 조인결합
# df1, df2 조인결합 -> 합집합
pd.merge(df1, df2, on = 'id', how = 'outer')

Unnamed: 0,id,password,name
0,a,1111.0,kim
1,b,2222.0,park
2,c,3333.0,
3,d,,lee


In [124]:
pd.merge(df1, df2, on='id', how='left')

Unnamed: 0,id,password,name
0,a,1111,kim
1,b,2222,park
2,c,3333,


In [125]:
pd.merge(df1, df2, on='id', how='right')

Unnamed: 0,id,password,name
0,a,1111.0,kim
1,b,2222.0,park
2,d,,lee


In [126]:
merge_data = pd.merge(df1, df2, on='id', how='inner')

In [127]:
# merge() 함수: pandas에도, DataFrame에도 존재
merge_data

Unnamed: 0,id,password,name
0,a,1111,kim
1,b,2222,park


In [128]:
# on 매개변수 사용하려면 -> 결합되는 데이터프레임이 같은 컬럼명을 가져야함
# 두 개의 데이터프레임의 결합할 컬럼의 각 이름이 다른 경우
merge_data.merge(df3, left_on='id', right_on='user_id', how='outer')

Unnamed: 0,id,password,name,user_id,phone
0,a,1111.0,kim,a,1012345678
1,b,2222.0,park,b,1099998888
2,,,,f,1011112222


In [129]:
# df3의 컬럼명을 변경하고 merge() 사용
df3.rename(
    columns = {'user_id' : 'id'},
    inplace=True
)

In [130]:
merge_data.merge(df3, on = 'id', how = 'outer')

Unnamed: 0,id,password,name,phone
0,a,1111.0,kim,1012345678
1,b,2222.0,park,1099998888
2,f,,,1011112222


In [131]:
# 데이터프레임의 인덱스 변경
df1.set_index('id', inplace=True)

In [132]:
df2.set_index('name', inplace=True)

In [133]:
# 단순 열결합시 인덱스가 서로 다른 데이터라면 인덱스 초기화하고 결합
pd.concat([df1.reset_index(), df2.reset_index()], axis=1)

Unnamed: 0,id,password,name,id.1
0,a,1111,kim,a
1,b,2222,park,b
2,c,3333,lee,d


### <데이터프레임 결합 예제>
1. csv 폴더에서 tran_1, tran_2, tran_d_1, tran_d_2 csv 파일 로드
2. tran_1, tran_2는 테이블의 구조가 같기 때문에 단순한 행 결합
3. tran_d_1, tran_d_2도 테이블 구조가 같기 때문에 단순한 행 결합
4. 2번, 3번 과정에서 나온 데이터프레임을 조인 결합 (왼쪽을 기준)

In [134]:
tran_1 = pd.read_csv('../../csv/tran_1.csv')
tran_2 = pd.read_csv('../../csv/tran_2.csv')

In [135]:
tran_d_1 = pd.read_csv('../../csv/tran_d_1.csv')
tran_d_2 = pd.read_csv('../../csv/tran_d_2.csv')

In [136]:
tran_1.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865


In [137]:
tran_2.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000005113,295000,2019-06-15 07:20:27,TS169261
1,T0000005114,50000,2019-06-15 07:35:47,HI599892
2,T0000005115,85000,2019-06-15 07:56:36,HI421757
3,T0000005116,50000,2019-06-15 08:40:55,OA386378
4,T0000005117,120000,2019-06-15 08:44:23,TS506913


In [138]:
tran_d_1.head()

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2


In [139]:
tran_d_2.head()

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,5000,T0000004870,S002,3
1,5001,T0000004871,S003,1
2,5002,T0000004872,S001,2
3,5003,T0000004873,S004,1
4,5004,T0000004874,S003,2


In [None]:
tran = pd.concat(
    [tran_1, tran_2],
    axis=0      # 디폴트값
)

In [141]:
tran

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865
...,...,...,...,...
1781,T0000006894,180000,2019-07-31 21:20:44,HI400734
1782,T0000006895,85000,2019-07-31 21:52:48,AS339451
1783,T0000006896,100000,2019-07-31 23:35:25,OA027325
1784,T0000006897,85000,2019-07-31 23:39:35,TS624738


In [142]:
tran_d = pd.concat(
    [tran_d_1, tran_d_2]
)
tran_d

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2
...,...,...,...,...
2139,7139,T0000006894,S004,1
2140,7140,T0000006895,S002,1
2141,7141,T0000006896,S001,2
2142,7142,T0000006897,S002,1


In [154]:
# detail_id가 고유한 값인지 확인
# detail_id의 유니크 값들의 길이가 데이터프레임의 인덱스 크기와 같다면 고유한 값
len(tran_d['detail_id'].unique()) == len(tran_d)

True

In [None]:
# transaction_id는 고유한 값인가?
# value_counts() 함수를 이용해 데이터 개수가 모두 1개라면 고유한 값
tran_d['transaction_id'].value_counts()

transaction_id
T0000000790    4
T0000000999    3
T0000000397    3
T0000000383    3
T0000000683    3
              ..
T0000006894    1
T0000006895    1
T0000006896    1
T0000006897    1
T0000006898    1
Name: count, Length: 6786, dtype: int64

In [165]:
# tran의 transaction_id와 tran_d의 transaction_id가 같은 데이터인가?
tran_test = tran['transaction_id'].unique() == tran_d['transaction_id'].unique()

tran_test.sum()
# len(tran_test)

np.int64(6786)

In [168]:
# tran, tran_d 조인결합 (왼쪽을 기준)
df = pd.merge(tran, tran_d, how='left', on='transaction_id')
df

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2
...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1


In [169]:
tran['transaction_id'].value_counts()
df['transaction_id'].value_counts()

transaction_id
T0000000790    4
T0000000999    3
T0000000397    3
T0000000383    3
T0000000683    3
              ..
T0000006894    1
T0000006895    1
T0000006896    1
T0000006897    1
T0000006898    1
Name: count, Length: 6786, dtype: int64

In [144]:
item = pd.read_csv('../../csv/item_master.csv')

In [145]:
item.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   item_id     5 non-null      object
 1   item_name   5 non-null      object
 2   item_price  5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes


In [146]:
item.head()

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [172]:
total_df = pd.merge(df, item, on='item_id', how='left')
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  7144 non-null   object
 1   price           7144 non-null   int64 
 2   payment_date    7144 non-null   object
 3   customer_id     7144 non-null   object
 4   detail_id       7144 non-null   int64 
 5   item_id         7144 non-null   object
 6   quantity        7144 non-null   int64 
 7   item_name       7144 non-null   object
 8   item_price      7144 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 502.4+ KB


In [173]:
total_df.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [199]:
# transaction_id에서 중복이 존재하는 데이터 확인
# value_counts() 함수 사용해 개수가 2개 이상인 id 찾기
flag = total_df['transaction_id'].value_counts() >= 2

flag

transaction_id
T0000000790     True
T0000000999     True
T0000000397     True
T0000000383     True
T0000000683     True
               ...  
T0000006894    False
T0000006895    False
T0000006896    False
T0000006897    False
T0000006898    False
Name: count, Length: 6786, dtype: bool

In [197]:
for id in total_df['transaction_id']:
    if id in ['T0000000790', 'T0000000999']:
        print(id in ['T0000000790', 'T0000000999'])

True
True
True
True
True
True
True


- transaction_id에서 중복이 존재하는 데이터 확인

In [None]:
# transaction_id 기준 오름차순 정렬
total_df.sort_values('transaction_id', inplace=True)

In [None]:
# transaction_id 데이터가 전 행의 데이터와 같거나 다음 행의 데이터와 같다면 -> 중복 데이터
flag_1 = total_df['transaction_id'] == total_df['transaction_id'].shift()       # 전 행 데이터와 비교
flag_2 = total_df['transaction_id'] == total_df['transaction_id'].shift(-1)     # 다음 행 데이터와 비교

(flag_1 | flag_2).sum()

np.int64(697)

In [211]:
total_df.loc[flag_1 | flag_2, ]

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
82,T0000000194,295000,2019-02-03 18:03:07,HD699115,82,S005,1,PC-E,210000
81,T0000000194,295000,2019-02-03 18:03:07,HD699115,81,S002,1,PC-B,85000
96,T0000000208,170000,2019-02-04 00:53:35,AS359364,96,S003,1,PC-C,120000
97,T0000000208,170000,2019-02-04 00:53:35,AS359364,97,S001,1,PC-A,50000
108,T0000000219,205000,2019-02-04 09:20:01,HD819739,108,S003,1,PC-C,120000
...,...,...,...,...,...,...,...,...,...
7072,T0000006829,330000,2019-07-30 07:26:30,GD862018,7072,S003,1,PC-C,120000
7107,T0000006864,100000,2019-07-31 03:42:20,IK341016,7107,S001,1,PC-A,50000
7108,T0000006864,100000,2019-07-31 03:42:20,IK341016,7108,S001,1,PC-A,50000
7128,T0000006884,260000,2019-07-31 18:12:37,PL491769,7128,S001,1,PC-A,50000


In [None]:
# duplicatied() 함수: 중복된 데이터를 확인하기 위한 함수
    # keep 매개변수
        # 'first': 첫번째 데이터 유지하고, 나머지 데이터 보여줌
        # 'last': 중복된 데이터 중 마지막 데이터만 확인
        # False: 중복된 모든 데이터 보여줌
total_df.loc[
    total_df['transaction_id'].duplicated(keep=False), 
]

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
82,T0000000194,295000,2019-02-03 18:03:07,HD699115,82,S005,1,PC-E,210000
81,T0000000194,295000,2019-02-03 18:03:07,HD699115,81,S002,1,PC-B,85000
96,T0000000208,170000,2019-02-04 00:53:35,AS359364,96,S003,1,PC-C,120000
97,T0000000208,170000,2019-02-04 00:53:35,AS359364,97,S001,1,PC-A,50000
108,T0000000219,205000,2019-02-04 09:20:01,HD819739,108,S003,1,PC-C,120000
...,...,...,...,...,...,...,...,...,...
7072,T0000006829,330000,2019-07-30 07:26:30,GD862018,7072,S003,1,PC-C,120000
7107,T0000006864,100000,2019-07-31 03:42:20,IK341016,7107,S001,1,PC-A,50000
7108,T0000006864,100000,2019-07-31 03:42:20,IK341016,7108,S001,1,PC-A,50000
7128,T0000006884,260000,2019-07-31 18:12:37,PL491769,7128,S001,1,PC-A,50000


In [None]:
# price 데이터를 합산했을 때 전체 거래내역의 합산이라 볼 수 없다
# 전체 거래내역의 합산을 구하기 위해 아이템 개수, 아이템 가격을 곱해 새로운 변수 생성
total_df['price2'] = total_df['quantity'] * total_df['item_price']

In [227]:
total_df.loc[
    total_df['quantity']>=2, 
]

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,price2
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000,170000
13,T0000000126,170000,2019-02-01 13:46:10,HD068817,13,S002,2,PC-B,85000,170000
21,T0000000134,150000,2019-02-01 22:08:51,TS701801,21,S001,3,PC-A,50000,150000
22,T0000000135,100000,2019-02-01 22:37:32,GD362521,22,S001,2,PC-A,50000,100000
26,T0000000139,100000,2019-02-02 00:10:42,AS220894,26,S001,2,PC-A,50000,100000
...,...,...,...,...,...,...,...,...,...,...
7114,T0000006870,150000,2019-07-31 05:53:32,HD880785,7114,S001,3,PC-A,50000,150000
7123,T0000006879,100000,2019-07-31 13:03:31,OA467724,7123,S001,2,PC-A,50000,100000
7126,T0000006882,200000,2019-07-31 14:46:46,HD030302,7126,S001,4,PC-A,50000,200000
7130,T0000006885,170000,2019-07-31 18:29:42,GD574177,7130,S002,2,PC-B,85000,170000


- 요일별 거래금액이 가장 높은 요일은 언제일까
    1. payment_date 컬럼을 시계열 데이터로 변경
    2. 변경된 시계열 데이터에서 요일을 추출하여(축약된 이름으로) 'week' 컬럼을 생성하여 대입
    3. 요일별로 그룹화하여 price2의 그룹화 합산
    4. 합산된 데이터를 기준으로 내림차순 정렬

In [228]:
from datetime import datetime

In [None]:
# 시계열 데이터로 변경
total_df['payment_date'] = pd.to_datetime(total_df['payment_date'])

In [233]:
total_df['payment_date']

0      2019-02-01 01:36:57
1      2019-02-01 01:37:23
2      2019-02-01 02:34:19
3      2019-02-01 02:47:23
4      2019-02-01 04:33:46
               ...        
7139   2019-07-31 21:20:44
7140   2019-07-31 21:52:48
7141   2019-07-31 23:35:25
7142   2019-07-31 23:39:35
7143   2019-07-31 23:41:38
Name: payment_date, Length: 7144, dtype: datetime64[ns]

In [None]:
# 시계열 데이터에서 요일(축약) 추출해 새로운 파생변수 'week' 생성
total_df['week'] = total_df['payment_date'].dt.strftime('%a')

In [250]:
total_df['week'].value_counts()

week
Fri    1063
Sun    1051
Wed    1022
Sat    1016
Tue    1012
Thu     992
Mon     988
Name: count, dtype: int64

In [251]:
# 요일 기준 그룹화, 그룹화연산 - price2의 합산
group_data = total_df.groupby(['week'])['price2'].sum()
group_data

week
Fri    144570000
Mon    131370000
Sat    140625000
Sun    140785000
Thu    136720000
Tue    137995000
Wed    139070000
Name: price2, dtype: int64

In [239]:
group_data.sort_values(ascending=False)

week
Fri    144570000
Sun    140785000
Sat    140625000
Wed    139070000
Tue    137995000
Thu    136720000
Mon    131370000
Name: price2, dtype: int64

In [252]:
group_data2 = total_df.groupby(['week'])['price2'].count()
group_data2.sort_values(ascending=False)

week
Fri    1063
Sun    1051
Wed    1022
Sat    1016
Tue    1012
Thu     992
Mon     988
Name: price2, dtype: int64

In [265]:
# 그룹화 연산을 2개 이상: agg() 함수 사용
total_df.groupby(['week', 'item_name'])['price2'].agg(['sum', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,count
week,item_name,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,PC-A,23500000,319
Fri,PC-B,24650000,225
Fri,PC-C,18960000,145
Fri,PC-D,21600000,115
Fri,PC-E,55860000,259
Mon,PC-A,21800000,313
Mon,PC-B,19720000,186
Mon,PC-C,18360000,139
Mon,PC-D,20880000,115
Mon,PC-E,50610000,235


In [None]:
# 피벗 테이블 활용
pd.pivot_table(
    total_df,
    index = 'week',
    values = 'price2',
    columns = 'item_name',
    aggfunc = ['sum', 'count']
)

# total_df.groupby(['week', 'item_name'])['price2'].agg(['sum', 'count']).unstack() 과 같은 결과

Unnamed: 0_level_0,sum,sum,sum,sum,sum,count,count,count,count,count
item_name,PC-A,PC-B,PC-C,PC-D,PC-E,PC-A,PC-B,PC-C,PC-D,PC-E
week,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Fri,23500000,24650000,18960000,21600000,55860000,319,225,145,115,259
Mon,21800000,19720000,18360000,20880000,50610000,313,186,139,115,235
Sat,21300000,19635000,19680000,22680000,57330000,309,176,144,120,267
Sun,23150000,23375000,17160000,26280000,50820000,317,231,130,133,240
Thu,20000000,20060000,17400000,22140000,57120000,282,191,133,118,268
Tue,20000000,22865000,17640000,23940000,53550000,293,211,131,127,250
Wed,22400000,21420000,13440000,24480000,57330000,310,209,107,129,267


#### <map, lambda>
- map
    - map(함수명, 1차원데이터)
    - 1차원 데이터의 원소들을 함수에 대입 -> 결과 map 데이터 형태로 반환

- lambda
    - 함수를 생성함과 동시에 호출

In [266]:
# map 함수
# 반복문과 흡사
_list = [1, 2, 3, 4]

# 반복문 이용
res = []
for i in _list:
    res.append(i**2)

res

[1, 4, 9, 16]

In [273]:
# map( 함수명 , 1차원 데이터 ) : 1차원 데이터의 원소들을 함수에 대입해서
# 결과를 map 데이터 형태로 반환

def func_1(x):
    return x ** 2

list(
    map(
    func_1,
    _list
    )
)

[1, 4, 9, 16]

In [274]:
# map, lambda 함수 이용
# lambda 함수: 함수를 생성함과 동시에 호출

list(
    map(
        lambda x : x**2,
        _list
    )
)

[1, 4, 9, 16]

In [275]:
# Series 데이터 생성
test_data = pd.Series([10, 20, 30, 40])
test_data

0    10
1    20
2    30
3    40
dtype: int64

In [None]:
# Series 안에 있는 map + lambda 함수
test_data.map(
    lambda x : x / 10
)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [None]:
# lambda 대신 일반 함수로 작업 (연산이 복잡할수록)
def func_2(a):
    return a / 10

test_data.map(
    func_2
)

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [286]:
# map 함수를 이용해서 payment_data에서 요일 출력
# 요일 데이터를 숫자의 형태로 출력 -> 해당 요일의 이름 변경
# case1 (map + 일반함수)
def func_3(x):
    # x에 입력되는 데이터 -> payment_date의 value가 하나씩 입력
    # x의 데이터 타입: datetime
    # print(x.strftime('%w'))
    week_index = int(x.strftime('%w'))
    if week_index == 0:
        result = '일요일'
    elif week_index == 1:
        result = '월요일'
    elif week_index == 2:
        result = '화요일'
    elif week_index == 3:
        result = '수요일'
    elif week_index == 4:
        result = '목요일'
    elif week_index == 5:
        result = '금요일'
    else:
        result = '토요일'
    return result

total_df.head(3)['payment_date'].map(
    func_3
)

0    금요일
1    금요일
2    금요일
Name: payment_date, dtype: object

In [288]:
# 위의 if문을 효율적으로 작성
def func_4(x):
    week_names = ['일요일', '월요일', '화요일', '수요일', '목요일', '금요일', '토요일']
    week_index = int(x.strftime('%w'))

    return week_names[week_index]

total_df['payment_date'].map(
    func_4
)

0       금요일
1       금요일
2       금요일
3       금요일
4       금요일
       ... 
7139    수요일
7140    수요일
7141    수요일
7142    수요일
7143    수요일
Name: payment_date, Length: 7144, dtype: object

In [None]:
# case2 (map + lambda 함수)
week_names = ['일요일', '월요일', '화요일', '수요일', '목요일', '금요일', '토요일']

total_df['payment_date'].map(
    lambda x : week_names[
        int(x.strftime('%w'))
    ]
)

0       금요일
1       금요일
2       금요일
3       금요일
4       금요일
       ... 
7139    수요일
7140    수요일
7141    수요일
7142    수요일
7143    수요일
Name: payment_date, Length: 7144, dtype: object

In [302]:
# 데이터프레임에서 .map 함수 이용
total_df.head(2).map(
    lambda x : print(x)
)

T0000000113
T0000000114
210000
50000
2019-02-01 01:36:57
2019-02-01 01:37:23
PL563502
HD678019
0
1
S005
S001
1
1
PC-E
PC-A
210000
50000
210000
50000
Fri
Fri


Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,price2,week
0,,,,,,,,,,,
1,,,,,,,,,,,


In [None]:
# apply : Series를 하나씩 보여줌
total_df.head(2).apply(
    lambda x : x.astype('str')      # Series의 모든 데이터 타입을 문자로 변경
)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,price2,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,210000,Fri
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,50000,Fri
