# dataframe 결합
1. 단순하게 행을 추가
2. 열을 추가(단순히 열을 추가 / 특정조건에 맞게 열을 추가)

In [1]:
# 행을 추가
import pandas as pd

In [4]:
df = pd.DataFrame({
    'S1' : [1, 2, 3, 4], 
    'S2' : [5, 6, 7, 8]
    })
df

Unnamed: 0,S1,S2
0,1,5
1,2,6
2,3,7
3,4,8


In [6]:
df2 = pd.DataFrame([1, 2])
df2

Unnamed: 0,0
0,1
1,2


# concat()
1. 데이터프레임을 결합하는 함수
2. axis 0, 1 행을 추가, 열을 추가 지정(기본값은 행을 추가)
3. 단순하게 결합
4. ignore_index 속성. 기본값이 false. 인덱스의 값을 그대로 할 것인가? 아니면 새로 지정할 것인가? 지정 가능

In [7]:
pd.concat([df, df2], axis=0) # 행으로 결합됨 
#                            S1의 0 1 2 3 인덱스와 s2의 0 1 인덱스도 결합됨

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
0,,,1.0
1,,,2.0


In [8]:
pd.concat([df, df2], axis=1) # 열이 추가

Unnamed: 0,S1,S2,0
0,1,5,1.0
1,2,6,2.0
2,3,7,
3,4,8,


In [12]:
pd.concat([df, df2], axis='rows', ignore_index=True) 
# True 하면 인덱스 새로 지정해줌

# 이거 기억안나면 이거 해줘도 똑같이 나옴
pd.concat([df, df2]).reset_index(drop=True)

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
4,,,1.0
5,,,2.0


In [14]:
df3 = pd.DataFrame({
    'S1' : [1, 3]
})

pd.concat([df, df3])
# column 명이 같으면 그 아래로 붙음

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """


Unnamed: 0,S1,S2
0,1,5.0
1,2,6.0
2,3,7.0
3,4,8.0
0,1,
1,3,


# merge()
1. 데이터프레임 결합 함수
2. 특정 조건을 만족해야 열이 추가
3. on 속성 -> 조건
4. how 속성 -> 기준이 되는 데이터프레임 선택 (left, right, inner, outer...)  
left : 왼쪽 기준, right : 오른쪽 기준, inner : 교집합, outer : 합집합

In [41]:
df4 = pd.DataFrame({
    'id' : [1, 2, 3, 4, 5],
    'item' : ['a', 'b', 'c', 'd', 'e']
})
df5 = pd.DataFrame({
    'id' : [1, 4, 5, 2, 3], 
    'name' : ['kim', 'lee', 'park', 'choi', 'ha']
})

In [42]:
# concat() 열 추가
# merge() 열 추가
pd.concat([df4, df5], axis='columns') #중복되는 컬럼도 합쳐버림 id 보면 알 수 있음 

Unnamed: 0,id,item,id.1,name
0,1,a,1,kim
1,2,b,4,lee
2,3,c,5,park
3,4,d,2,choi
4,5,e,3,ha


In [43]:
pd.merge(df4, df5, on='id', how='inner') #on에는 보통 중복이 되는 column을 적어줌
# name의 순서가 바뀌었음, df4의 id 값을 기준으로 df5의 id 값이 같은 애들을 넣어주는 것

Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,c,ha
3,4,d,lee
4,5,e,park


In [44]:
df6 = pd.DataFrame({
    'item' : ['a', 'b', 'c'],
    'item_price' : [100, 500, 1000]
})

In [45]:
pd.concat([df4, df6], axis = 'columns') 
# concat 사용시에는 
# df4는 5개, df6는 3개 있기 때문에 그냥 붙이면 아래로 붙음

Unnamed: 0,id,item,item.1,item_price
0,1,a,a,100.0
1,2,b,b,500.0
2,3,c,c,1000.0
3,4,d,,
4,5,e,,


In [46]:
pd.merge(df4, df6, on='item', how='inner') # inner는 교집합, df4가 a, b, c, d, e면 교집합인 a, b, c만 나온다.

Unnamed: 0,id,item,item_price
0,1,a,100
1,2,b,500
2,3,c,1000


In [64]:
pd.merge(df4, df6, on='item', how='outer')

Unnamed: 0,id,item,item_price
0,1,a,100.0
1,2,b,500.0
2,3,c,1000.0
3,4,d,
4,5,e,


In [54]:
con_tran1 = "../csv/transaction_1.csv"

In [55]:
con_tran2 = "../csv/transaction_2.csv"

In [56]:
con_trandt1 = "../csv/transaction_detail_1.csv"

In [57]:
con_trandt2 = "../csv/transaction_detail_2.csv"

In [61]:
dataframe = pd.concat(
    map(pd.read_csv, [con_tran1, con_tran2]), ignore_index=True)
print(dataframe)

     transaction_id   price         payment_date customer_id
0       T0000000113  210000  2019-02-01 01:36:57    PL563502
1       T0000000114   50000  2019-02-01 01:37:23    HD678019
2       T0000000115  120000  2019-02-01 02:34:19    HD298120
3       T0000000116  210000  2019-02-01 02:47:23    IK452215
4       T0000000117  170000  2019-02-01 04:33:46    PL542865
...             ...     ...                  ...         ...
6781    T0000006894  180000  2019-07-31 21:20:44    HI400734
6782    T0000006895   85000  2019-07-31 21:52:48    AS339451
6783    T0000006896  100000  2019-07-31 23:35:25    OA027325
6784    T0000006897   85000  2019-07-31 23:39:35    TS624738
6785    T0000006898   85000  2019-07-31 23:41:38    AS834214

[6786 rows x 4 columns]


In [63]:
dataframe2 = pd.concat(
   map(pd.read_csv, [con_trandt1, con_trandt2]), ignore_index=True
)

print(dataframe2)

      detail_id transaction_id item_id  quantity
0             0    T0000000113    S005         1
1             1    T0000000114    S001         1
2             2    T0000000115    S003         1
3             3    T0000000116    S005         1
4             4    T0000000117    S002         2
...         ...            ...     ...       ...
7139       7139    T0000006894    S004         1
7140       7140    T0000006895    S002         1
7141       7141    T0000006896    S001         2
7142       7142    T0000006897    S002         1
7143       7143    T0000006898    S002         1

[7144 rows x 4 columns]
