### 데이터프레임의 결합
- 유니온 결합
    - 단순하게 행을 결합하거나 열을 결합
- 조인 결합
    - 특정한 조건에 맞춰서 데이터의 열을 추가하는 결합방식
    - df + df -> 특정 컬럼의 데이터들이 같은 값들로 이루어져있을 때 열을 추가

In [33]:
import pandas as pd
data = {
    'name' : ['test','test2','test3'],
    'age' : [20, 30, 40]
}
df1 = pd.DataFrame(data)

In [34]:
data = {
    'name' : ['test4','test5'],
    'loc' : ['seoul','busan']
}
df2 = pd.DataFrame(data)

In [35]:
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [36]:
# concat({df명 1차원 리스트 형태}, axis = {0 or 1}, ignore_index = {bool})
# axis : 행 or 열로 결합할지 지정
# ignore_index : 기본값은 False, True로 변경하면 index(axis = 0)나 column(axis = 1)이 초기화
# concat 은 pandas에 내장되어 있는 함수
pd.concat(
    [df1, df2],
    axis=0,
    ignore_index=True
)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [37]:
pd.concat(
    [df1, df2],
    axis=1,
    ignore_index=True
)

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [38]:
data = {
    'name' : ['test6','test7'],
    'age' : [25, 35],
    'loc' : ['ulsan','mokpo']
}
df3 = pd.DataFrame(data)

In [39]:
pd.concat([df1,df2, df3],axis=0)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan
0,test6,25.0,ulsan
1,test7,35.0,mokpo


In [40]:
## 조인결합
## merge({df1}, {df2}, on = {조건식}, how = {left | right | inner | outer})
## on 매개변수 : 2개의 데이터프레임에 컬럼의 이름이 같은 경우
## left_on, right_on 매개변수 : 2개의 데이터프레임에 조건 컬럼의 이름이 다른 경우

data = {
    'id' : ['test','test2','test3','test4'],
    'item' : ['A','A','B','D']
}
df1 = pd.DataFrame(data)

In [41]:
data = {
    'item' : ['A','B','C'],
    'price' : [100, 200, 300]
}
df2 = pd.DataFrame(data)

In [42]:
# 조인결합
pd.merge(df1, df2, on='item', how='left')

Unnamed: 0,id,item,price
0,test,A,100.0
1,test2,A,100.0
2,test3,B,200.0
3,test4,D,


In [43]:
pd.merge(df1,df2,on='item',how = 'right')

Unnamed: 0,id,item,price
0,test,A,100
1,test2,A,100
2,test3,B,200
3,,C,300


In [44]:
pd.merge(df1, df2, on='item', how='inner')

Unnamed: 0,id,item,price
0,test,A,100
1,test2,A,100
2,test3,B,200


In [45]:
pd.merge(df1, df2, on='item', how='outer')

Unnamed: 0,id,item,price
0,test,A,100.0
1,test2,A,100.0
2,test3,B,200.0
3,test4,D,
4,,C,300.0


In [46]:
df2.columns = ['item_name', 'price']

In [47]:
df2

Unnamed: 0,item_name,price
0,A,100
1,B,200
2,C,300


In [48]:
pd.merge(df1, df2, left_on ='item', right_on='item_name', how= 'outer')

Unnamed: 0,id,item,item_name,price
0,test,A,A,100.0
1,test2,A,A,100.0
2,test3,B,B,200.0
3,test4,D,,
4,,,C,300.0


#### 데이터프레임의 결합 문제
1. csv 폴더에서 tran_1, tran_2, tran_d_1, tran_d_2 각각 로드
2. tran_1, tran_2 df는 단순한 행 결합
3. tran_d_1, tran_d_2 df는 단순한 행 결합
4. 2번과 3번 조건 조인

In [17]:
df1 = pd.read_csv("../../../../csv/tran_1.csv")

In [18]:
df2 = pd.read_csv("../../../../csv/tran_2.csv")
df3 = pd.read_csv("../../../../csv/tran_d_1.csv")
df4 = pd.read_csv("../../../../csv/tran_d_2.csv")

In [19]:
df2

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000005113,295000,2019-06-15 07:20:27,TS169261
1,T0000005114,50000,2019-06-15 07:35:47,HI599892
2,T0000005115,85000,2019-06-15 07:56:36,HI421757
3,T0000005116,50000,2019-06-15 08:40:55,OA386378
4,T0000005117,120000,2019-06-15 08:44:23,TS506913
...,...,...,...,...
1781,T0000006894,180000,2019-07-31 21:20:44,HI400734
1782,T0000006895,85000,2019-07-31 21:52:48,AS339451
1783,T0000006896,100000,2019-07-31 23:35:25,OA027325
1784,T0000006897,85000,2019-07-31 23:39:35,TS624738


In [20]:
df5 = pd.concat([df1, df2], axis = 0)

In [21]:
df6 = pd.concat([df3, df4], axis=0)

In [22]:
len(df6['transaction_id'].unique())

6786

In [23]:
len(df5['transaction_id'].unique())

6786

In [24]:
df7 = pd.merge(df5, df6, on='transaction_id')

In [25]:
df7

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2
...,...,...,...,...,...,...,...
7139,T0000006894,180000,2019-07-31 21:20:44,HI400734,7139,S004,1
7140,T0000006895,85000,2019-07-31 21:52:48,AS339451,7140,S002,1
7141,T0000006896,100000,2019-07-31 23:35:25,OA027325,7141,S001,2
7142,T0000006897,85000,2019-07-31 23:39:35,TS624738,7142,S002,1


#### 특정 경로에 있는 파일의 목록을 로드
- 어느 경로의 파일목록을 가지고 오는가?
- 특정 확정자 파일을 로드

In [51]:
import os

In [53]:
os.listdir("../../../../csv/2017/")

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [57]:
file_path = "../../../../csv/2017/"
file_list = os.listdir(file_path)
file_list

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [59]:
# 비어있는 데이터프레임을 생성
df2017 = pd.DataFrame()
df2017

In [62]:
for file in file_list:
    # file이 의미하는 것은? -> file_name
    df = pd.read_csv(file_path + file)
    df2017 = pd.concat (
        [df2017, df], axis=0
    )
df2017

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-26 13:10,동해일식 (중구 무교동),기본소득과 장애인복지 논의간담회,장애인복지정책팀장 외 2명,카드,76000
1,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-25 22:41,김앤장 (중구 무교로),장애인단체 활동지원 논의간담회,장애인복지정책과장 외 3명,카드,102000
2,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-24 12:35,왕왕생고기 (중구 을지로),장애인 기본돌봄 복지시책 논의간담회,장애인복지정책팀장외7명,카드,80000
3,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-24 12:23,서울불고기 (중구 남대문로),서울시일자리통합지원센터 운영개선 논의간담회,장애인복지정책과장외5명,카드,112000
4,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-23 15:10,서울시청신매점,부서운영에 필요한 음료수 구매,장애인복지정책과직원,카드,16000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7281,14292506,2017년 12월 사업소_은평병원_원무과 업무추진비 내역,http://opengov.seoul.go.kr/public/14292506,사업소,은평병원,원무과,,,2017,12,,,,원무과,2017-12-15 16:40,보리네생고깃간(서오릉로 12),지역정신보건기관 업무협의 간담회,병원장 외 4명,카드,112000
7282,14292506,2017년 12월 사업소_은평병원_원무과 업무추진비 내역,http://opengov.seoul.go.kr/public/14292506,사업소,은평병원,원무과,,,2017,12,,,,원무과,2017-12-12 20:39,항아리홍어(불광동 281-159),원무과 현안업무 추진직원 격려 간담회,원무과장 외 4명,카드,118000
7283,14292506,2017년 12월 사업소_은평병원_원무과 업무추진비 내역,http://opengov.seoul.go.kr/public/14292506,사업소,은평병원,원무과,,,2017,12,,,,원무과,2017-12-04 21:17,횟집산이네(백련산로 160),18년 예산편성 관련 직원 격려 간담회,서무팀장 외 5명,카드,124000
7284,14292506,2017년 12월 사업소_은평병원_원무과 업무추진비 내역,http://opengov.seoul.go.kr/public/14292506,사업소,은평병원,원무과,,,2017,12,,,,원무과,2017-12-05 18:21,삿뽀로(서오릉로 4),인증 관련업무 직원 격려 간담회,병원장 외 33명,카드,820000


In [64]:
def data_load(_path, _end = 'csv') :
    
    # 혹시나 _path 값에 마지막이 '/'가 아닌 경우
    _path = _path+'/'
    
    # 비어있는 데이터프레임을 생성
    result = pd.DataFrame()
    
    # 파일 목록을 로드
    file_list = os.listdir(_path)
    
    # file_list를 기준으로 반복문을 생성
    for file in file_list :
        if file.endswith(_end) :
            # _end에 따라서 read함수가 변경
            if _end == 'csv' :
                df = pd.read_csv(_path+file)
            elif _end == 'json' :
                df = pd.read_json(_path+file)
            elif _end == 'xml' :
                df = pd.read_xml(_path+file)
            elif _end in ['xls', 'xlsx'] :
                df = pd.read_excel(_path+file)
            else :
                return "지원하지 않는 확장자 입니다."
            print(file, len(df))
            result = pd.concat(
                [result, df], axis = 0
            )
    return result

In [66]:
data_load("../../../../csv/2019/", 'json')

201901_expense_list.json 6392
201902_expense_list.json 5562
201903_expense_list.json 6115
201904_expense_list.json 6351
201905_expense_list.json 5827
201906_expense_list.json 5599
201907_expense_list.json 6450
201908_expense_list.json 5572
201909_expense_list.json 5595
201910_expense_list.json 6429
201911_expense_list.json 6471
201912_expense_list.json 7844


Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,17506661,2019년1월 국제교류담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/17506661,서울시본청,기획조정실,국제교류담당관,,,2019,1,,,,기획조정실 국제교류담당관,2019-01-31 19:57,구이구이 서울특별시 중구 을지로 6,도시외교 기본계획 개선관련 연구용역 및 협력방안 논의 간담회,국제교류담당관 등 6명,카드,143000
1,17506661,2019년1월 국제교류담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/17506661,서울시본청,기획조정실,국제교류담당관,,,2019,1,,,,기획조정실 국제교류담당관,2019-01-31 12:39,왕비집 시청무교점 서울특별시 중구 무교로 19,서울평화포럼 준비위원회 구성 및 향후 추진방향 논의,국제교류담당관 등 3명,카드,24000
2,17506661,2019년1월 국제교류담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/17506661,서울시본청,기획조정실,국제교류담당관,,,2019,1,,,,기획조정실 국제교류담당관,2019-01-30 19:18,반포식스 서울 중구 무교동 24-2,중국 순방 지원 근무 관련 협의 간담회 비용 지급,중국팀장 등 6명,카드,84000
3,17506661,2019년1월 국제교류담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/17506661,서울시본청,기획조정실,국제교류담당관,,,2019,1,,,,기획조정실 국제교류담당관,2019-01-30 14:01,(주)에스지다인힐붓처스컷광화 서울 중구 세종대로 136,서울평화포럼(가칭) 연사 초청 등 관련 자문 간담회,국제관계대사 등 4명,카드,78000
4,17506661,2019년1월 국제교류담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/17506661,서울시본청,기획조정실,국제교류담당관,,,2019,1,,,,기획조정실 국제교류담당관,2019-01-29 20:10,주식회사 크라운에셋 서울 중구 남대문로7길 19,글로벌파트너스 기능 및 이관사업 범위 논의 간담회,국제교류담당관 등 10명,카드,251000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7839,19540238,2019년 12월 사업소 서울시립대학교 중앙도서관 사서과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/19540238,사업소,서울시립대학교,중앙도서관,사서과,,2019,12,,,,사서과,2019-12-24 12:32,마루한(서울시 동대문구 서울시립대로27길 3),업무협의를 위한 간담회비 지급,사서과장 외 2명,카드,39000
7840,19540238,2019년 12월 사업소 서울시립대학교 중앙도서관 사서과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/19540238,사업소,서울시립대학교,중앙도서관,사서과,,2019,12,,,,사서과,2019-12-23 15:00,서울시립대학교(서울시 동대문구 서울시립대로 163),도서관 전산시스템 사업 제안서 평가회 진행을 위한 다과비 지급,제안서평가위원 8명,카드,90200
7841,19540238,2019년 12월 사업소 서울시립대학교 중앙도서관 사서과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/19540238,사업소,서울시립대학교,중앙도서관,사서과,,2019,12,,,,사서과,2019-12-19 11:34,봄솔레씨네(서울시 동대문구 서울시립대로29길 3),100주년기념도서관 직원 격려 간담회비 지급,사서과장 외 2명,카드,41800
7842,19540238,2019년 12월 사업소 서울시립대학교 중앙도서관 사서과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/19540238,사업소,서울시립대학교,중앙도서관,사서과,,2019,12,,,,사서과,2019-12-16 12:39,와플스토리(서울시 동대문구 서울시립대로 164),업무협의를 위한 간담회비 지급,사서과장 외 8명,카드,23940
