### 데이터프레임 결합 예제
1. csv폴더에서 tran_1.csv, tran_2.csv 파일 로드 
2. tran_1.csv, tran_2.csv의 데이터프레임을 단순한 행 결합 (두개의 데이터는 테이블의 구조가 같은 형태)
3. csv 폴더에서 tran_d_1.csv, tran_d_2.csv 파일 로드 
4. 3번 과정에서 로드한 2개의 데이터프레임을 단순한 행 결합
5. 2번과정과 4번 과정에서 만들어진 2개의 데이터프레임을 특정 조건에 맞춰서 조인 결합(left)
6. 5번 과정에서 나온 데이터프레임과 csv 폴더 안에 있는 item_master.csv파일 로드하여 2개의 데이터프레임을 특정 조건에 맞춰서 조인 결합

In [None]:
import pandas as pd

In [None]:
tran_1 = pd.read_csv("../csv/tran_1.csv")
tran_2 = pd.read_csv('../csv/tran_2.csv')
tran_d_1 = pd.read_csv("../csv/tran_d_1.csv")
tran_d_2 = pd.read_csv("../csv/tran_d_2.csv")
item_master = pd.read_csv('../csv/item_master.csv')

In [None]:
# tran_1, tran_2를 단순한 행결합(유니언 결합)
tran = pd.concat([tran_1, tran_2], axis= 0, ignore_index=True)
tran.info()

In [None]:
# tran_d_1, tran_d_2 단순하게 행 결합
tran_d = pd.concat([tran_d_1, tran_d_2], axis=0, ignore_index=True)
tran_d.info()

In [5]:
tran.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502


In [6]:
tran_d.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [8]:
# tran, tran_d 데이터프레임을 결합 (조인 결합)
df = pd.merge(tran, tran_d, on='transaction_id', how='left')

In [9]:
# df, item_master 조인 결합 
df.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1


In [11]:
item_master

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [13]:
total_df = pd.merge(df, item_master, on='item_id', how = 'left')

In [17]:
# 새로운 파생변수 생성 price2 = quantity * item_price
total_df['price2'] = total_df['item_price'] * total_df['quantity']

In [20]:
# 데이터에서 가장 많이 팔린 제품의 이름을 무엇인가?
group_data = total_df[['item_name', 'quantity']].groupby('item_name').sum()

In [21]:
# group_data를 quantity를 기준으로 내림차순 정렬
group_data.sort_values('quantity', ascending=False)

Unnamed: 0_level_0,quantity
item_name,Unnamed: 1_level_1
PC-A,3043
PC-E,1822
PC-B,1785
PC-C,1022
PC-D,900


In [22]:
# 가장 매출이 높은 아이템은 무엇인가?
total_df[['item_name', 'price', 'price2']].groupby('item_name').sum()

Unnamed: 0_level_0,price,price2
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
PC-A,181760000,152150000
PC-B,171205000,151725000
PC-C,135310000,122640000
PC-D,176465000,162000000
PC-E,410010000,382620000
