#### 데이터프레임의 결합
- 유니언 결합 
    - 단순하게 행이나 열을 결합하는 방식 
    - pandas에 내장된 concat() 함수를 이용  
        - concat( [ 데이터프레임명, 데이터프레임명, ... ] )
            - axis 매개변수
                - 0(rows) : 행을 결합 
                - 1(columns) : 열을 결합
            - ignore_index 매개변수
                - False(기본값) : 결합되는 인덱스를 보존
                - True : 결합되는 인덱스를 초기화
- 조인 결합
    - 특정한 조건에 맞춰서 열을 결합 
    - 데이터프레임과 데이터프레임 간의 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있는 경우에만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge( 데이터프레임명, 데이터프레임명 )
            - on 매개변수 
                - 조건식 (두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임에서 기준이 되는 컬럼의 이름이 다른 경우 
                    - 데이터프레임의 컬럼의 이름을 변경하고 결합 
                    - left_on, right_on 매개변수를 이용하여 컬럼의 이름을 지정 
            - how 매개변수 
                - 조인결합의 방법을 지정 
                    - inner : 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터만 결합해서 출력 
                    - left : 왼쪽의 데이터프레임을 기준으로 결합 
                    - right : 오른쪽의 데이터프레임을 기준으로 결합 
                    - outer : 두 개의 데이터프레임의 합집합

In [None]:
import pandas as pd

In [None]:
data = {
    "name" : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df = pd.DataFrame(data)
df

In [None]:
data2 = {
    'name' : ['test4', 'test5'], 
    'loc' : ['seoul', 'busan']
}
df2 = pd.DataFrame(data2)
df2

In [None]:
# concat() : 행 결합
pd.concat( [df, df2] , axis=0, ignore_index=True)

In [None]:
pd.concat( [df, df2] ).reset_index(drop=True)

In [None]:
pd.concat( [df, df2] ).reset_index().drop('index', axis=1)

In [None]:
# concat() : 열 결합
pd.concat( [df, df2], axis=1, ignore_index=True)

In [None]:
data3 = {
    'name' : ['test6', 'test7'],
    'age' : [25, 35]
}
df3 = pd.DataFrame(data3)
df3

In [None]:
pd.concat( [df, df2, df3] , axis=0 , ignore_index=True)

In [None]:
pd.concat( [df, df2, df3], axis=1 )

In [None]:
df3.rename(
    index={
        0 : 10, 
        1 : 15
    }
)

In [None]:
df3.index = [10, 15]

In [None]:
df3

In [None]:
pd.concat([df, df2, df3], axis=1)

In [None]:
# concat 함수는 pandas에만 존재
# df.concat( [df2, df3], axis=0 )

In [None]:
# merge()
df

In [None]:
data = {
    'name' : ['test', 'test2', 'test4'], 
    'loc' : ['서울', '경기', '대구']
}
df4 = pd.DataFrame(data)
df4

In [None]:
pd.merge(df, df4, on='name', how='inner')

In [None]:
pd.merge(df, df4, on='name', how='left')

In [None]:
pd.merge(df, df4, on='name', how='right')

In [None]:
pd.merge(df, df4, on='name', how='outer')

In [31]:
data = {
    'location' : ['서울', '경기', '대구', '세종'], 
    'code' : ['11', '31', '32', '41']
}
df5 = pd.DataFrame(data)
df5

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,대구,32
3,세종,41


In [32]:
df4

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test4,대구


In [33]:
# df4, df5 조인결합 
# 기준의 되는 컬럼의 이름이 다른 경우
pd.merge(df4, df5, left_on='loc', right_on='location', how='inner')

Unnamed: 0,name,loc,location,code
0,test,서울,서울,11
1,test2,경기,경기,31
2,test4,대구,대구,32


In [35]:
# 두개의 데이터프레임중 하나의 컬럼의 이름을 변경하고 조인결합
df5.rename(
    columns = {
        'location' : 'loc'
    }, inplace=True
)

In [36]:
pd.merge(df4, df5, on='loc', how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


In [37]:
df4.merge(df5, on='loc', how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


#### 데이터프레임 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 파일을 로드 
2. tran_1, tran_2를 단순 행 결합 
3. tran_d_1, tran_d_2를 단순 행 결합 
4. 2번의 결과와 3번의 결과를 조인 결합(inner) 

In [39]:
tran_1 = pd.read_csv("../../csv/tran_1.csv")
tran_2 = pd.read_csv("../../csv/tran_2.csv")
tran_d1 = pd.read_csv("../../csv/tran_d_1.csv")
tran_d2 = pd.read_csv("../../csv/tran_d_2.csv")

In [43]:
# tran_1, tran_2 단순한 행 결합 
tran = pd.concat( [tran_1, tran_2], axis=0, ignore_index=True )

In [45]:
# tran_d1, tran_d2 단순한 행 결합 
print(len(tran_d1))
print(len(tran_d2))
tran_d = pd.concat( [tran_d1, tran_d2] , axis=0, ignore_index=True)

5000
2144


In [46]:
tran.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502


In [47]:
tran_d.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [50]:
df = pd.merge(tran, tran_d, how='left', on='transaction_id')

In [51]:
# item_mater 파일 로드 
item_master = pd.read_csv("../../csv/item_master.csv")

In [52]:
item_master

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [54]:
tran_d.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [56]:
# df와 item_master를 조인 결합 
total_df = df.merge(item_master, on = 'item_id', how='left')

In [71]:
# transaction_id가 2개 이상인 데이터들만 출력 
# 중복데이터가 존재하는가?
# 값들의 카운터를 확인하는 함수 
df2 = total_df['transaction_id'].value_counts()
id_list2 = df2[df2 > 1].index
len(id_list2)

339

In [70]:
# 인덱스를 이동하는 함수 shift()
flag = \
    total_df['transaction_id'] == total_df.shift()['transaction_id']
id_list = total_df.loc[flag, 'transaction_id']
len(id_list.unique())

339

In [72]:
id_list2

Index(['T0000000790', 'T0000005598', 'T0000000231', 'T0000000547',
       'T0000000683', 'T0000000383', 'T0000004837', 'T0000006063',
       'T0000000999', 'T0000004784',
       ...
       'T0000003754', 'T0000006050', 'T0000005214', 'T0000001879',
       'T0000005146', 'T0000005840', 'T0000005880', 'T0000006829',
       'T0000003651', 'T0000006827'],
      dtype='object', name='transaction_id', length=339)

In [None]:
# total_df의 인덱스를 transaction_id 변경
# set_index('컬럼명')
total_df.set_index('transaction_id')\
    .loc[id_list2].reset_index()\
        [ ['transaction_id', "price", "item_price", "quantity"] ]

In [None]:
# duplicated() : 중복 데이터를 체크하는 함수 
# subset 매개변수 : 어떤 열의 데이터의 중복을 체크할것인가? (기본값은 모든 열)
# keep : 
#   'first' : 중복되는 데이터중 첫번째 데이터는 False
#   'last' : 중복되는 데이터 중 마지막 데이터는 False
#   False : 중복되는 데이터 모두 True
flag = total_df.duplicated(subset='transaction_id', keep=False)
total_df.loc[flag]

In [86]:
total_df.duplicated(subset='transaction_id', keep=False).value_counts()

False    6447
True      697
Name: count, dtype: int64

In [87]:
data = {
    'id' : ['a', 'b', 'c', 'd', 'd'], 
    'pass' : ['1111', '1234', '2222', '0000', '0001']
}
test_df = pd.DataFrame(data)
test_df

Unnamed: 0,id,pass
0,a,1111
1,b,1234
2,c,2222
3,d,0
4,d,1


In [91]:
test_df.duplicated(subset='id', keep=False)

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [None]:
# 중복 데이터를 제거하는 함수수
test_df.drop_duplicates(subset='id', keep=False)

Unnamed: 0,id,pass
0,a,1111
1,b,1234
2,c,2222


In [95]:
total_df.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000


In [96]:
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  7144 non-null   object
 1   price           7144 non-null   int64 
 2   payment_date    7144 non-null   object
 3   customer_id     7144 non-null   object
 4   detail_id       7144 non-null   int64 
 5   item_id         7144 non-null   object
 6   quantity        7144 non-null   int64 
 7   item_name       7144 non-null   object
 8   item_price      7144 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 502.4+ KB


In [None]:
# 어떤 요일에 매출이 가장 높은가?
# payment_date를 시계열 데이터로 변경 
# 요일 컬럼을 생성해서 시계열 데이터에서 요일(축약된 이름)을 추출하여 생성
# 