#### 데이터프레임의 결합
- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 이용
        - concat( [ 데이터프레임명, 데이터프레임명, ... ] )
            - axis 매개변수
                - 0(rows) : 행을 결합
                - 1(columns) : 열을 결합
            - ignore_index 매개변수
                - False(기본값) : 결합되는 인덱스를 보존
                - True : 결합되는 인덱스를 초기화

- 조인 결합
    - 특정한 조건에 맞춰서 열을 결합
    - 데이터프레임과 데이터프레임 간의 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있는 경우에만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge( 데이터프레임명, 데이터프레임명 )
            - on 매개변수
                - 조건식 (두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임에서 기준이 되는 컬럼의 이름이 다른경우
                    - 데이터프레임의 컬럼의 이름을 변경하고 결합
                    - left_on, right_on 매개변수를 이용하여 컬럼의 이름을 지정
            - how 매개변수
                - 조인결합의 방법을 지정
                    - inner : 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터만 결합해서 출력
                    - left : 왼쪽의 데이터프레임을 기준으로 결합
                    - right : 오른쪽의 데이터프레임을 기준으로 결합
                    - outer : 두개의 데이터프레임의 합집합

In [1]:
import pandas as pd

In [2]:
data = {
    "name" : ['test', 'test2', 'test3'],
    "age" : [20, 30, 40]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [3]:
data2 = {
    "name" : ['test4', 'test5'],
    "loc" : ['seoul', 'busan']
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [4]:
# concat() : 행 결합
pd.concat([df, df2], axis=0, ignore_index=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [5]:
pd.concat( [df,df2] ).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [6]:
pd.concat( [df,df2] ).reset_index().drop('index', axis=1)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [7]:
pd.concat( [df, df2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [8]:
data3 = {
    'name' : ['test6', 'test7'],
    'age' : [25, 35]
}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,name,age
0,test6,25
1,test7,35


In [9]:
pd.concat( [df, df2, df3] , axis=0, ignore_index=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan
5,test6,25.0,
6,test7,35.0,


In [10]:
pd.concat( [df, df2, df3], axis=1 )

Unnamed: 0,name,age,name.1,loc,name.2,age.1
0,test,20,test4,seoul,test6,25.0
1,test2,30,test5,busan,test7,35.0
2,test3,40,,,,


In [11]:
df3.rename(
    index={
        0 : 10,
        1 : 15
    }
)

Unnamed: 0,name,age
10,test6,25
15,test7,35


In [12]:
df3.index = [10, 15]

In [13]:
df3

Unnamed: 0,name,age
10,test6,25
15,test7,35


In [14]:
pd.concat( [df, df2, df3], axis=1)

Unnamed: 0,name,age,name.1,loc,name.2,age.1
0,test,20.0,test4,seoul,,
1,test2,30.0,test5,busan,,
2,test3,40.0,,,,
10,,,,,test6,25.0
15,,,,,test7,35.0


In [15]:
# concat 함수는 pandas에만 존재
# df.concat( [df2, df3], axis = 0 )

In [16]:
# merge()
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [17]:
data = {
    'name' : ['test', 'test2', 'test4'],
    'loc' : ['서울', '경기', '대구']
}
df4 = pd.DataFrame(data)
df4

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test4,대구


In [18]:
pd.merge(df, df4, on='name', how='inner')

Unnamed: 0,name,age,loc
0,test,20,서울
1,test2,30,경기


In [19]:
pd.merge(df, df4, on='name', how='left')

Unnamed: 0,name,age,loc
0,test,20,서울
1,test2,30,경기
2,test3,40,


In [20]:
pd.merge(df, df4, on='name', how='right')

Unnamed: 0,name,age,loc
0,test,20.0,서울
1,test2,30.0,경기
2,test4,,대구


In [21]:
pd.merge(df, df4, on='name', how='outer')

Unnamed: 0,name,age,loc
0,test,20.0,서울
1,test2,30.0,경기
2,test3,40.0,
3,test4,,대구


In [22]:
data = {
    'location' : ['서울', '경기', '대구', '세종'],
    'code' : ['11', '31', '32', '41']
}
df5 = pd.DataFrame(data)
df5

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,대구,32
3,세종,41


In [23]:
df4

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test4,대구


In [24]:
# df4, df5 조인결합
# 기준이 되는 컬럼의 이름이 다른 경우
pd.merge(df4, df5, left_on='loc', right_on='location', how='inner')

Unnamed: 0,name,loc,location,code
0,test,서울,서울,11
1,test2,경기,경기,31
2,test4,대구,대구,32


In [25]:
# 두개의 데이터프레임중 하나의 컬럼의 이름을 변경하고 조인결합
df5.rename(
    columns = {
        'location' : 'loc'
    }, inplace=True
)

In [26]:
pd.merge(df4, df5, on='loc', how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


In [27]:
df4.merge(df5, on='loc', how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


#### 데이터프레임 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 파일을 로드
2. tran_1, tran_2를 단순 행 결합
3. tran_d_1, tran_d_2를 단순 행 결합
4. 2번의 결과와 3번의 결과를 조인 결합(inner)

In [28]:
tran_1 = pd.read_csv('../../csv/tran_1.csv')
tran_2 = pd.read_csv('../../csv/tran_2.csv')
tran_d1 = pd.read_csv('../../csv/tran_d_1.csv')
tran_d2 = pd.read_csv('../../csv/tran_d_2.csv')

In [29]:
print(len(tran_1))
print(len(tran_2))
tran = pd.concat([tran_1, tran_2], axis=0, ignore_index=True)

5000
1786


In [30]:
# tran_d1, tran_d2 단순한 행 결합
print(len(tran_d1))
print(len(tran_d2))
tran_d = pd.concat([tran_d1, tran_d2], axis=0, ignore_index=True)

5000
2144


In [31]:
tran.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502


In [32]:
tran_d.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [33]:
df =pd.merge(tran, tran_d, how='left', on='transaction_id')

In [34]:
# item_master 파일로드
item_master = pd.read_csv("../../csv/item_master.csv")

In [35]:
item_master

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [36]:
tran_d.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [37]:
# df와 item_master를 조인 결합
total_df = df.merge(item_master, on='item_id', how='left')

In [38]:
# transaction_id가 2개 이상인 데이터들만 출력
# 중복데이터가 존재하는가?
# 값들의 카운터를 확인하는 함수
df2 = total_df['transaction_id'].value_counts()
id_list2 = df2[df2 > 1].index
len(id_list2)

339

In [39]:
# 인덱스를 이동하는 함수 shift()
flag = \
    total_df['transaction_id'] == total_df.shift()['transaction_id']
id_list = total_df.loc[flag, 'transaction_id']
len(id_list.unique())

339

In [40]:
# total_df의 인덱스를 transaction_id 변경
# set_index('컬럼명')
total_df.set_index('transaction_id').loc[id_list2].reset_index()[ ["transaction_id", "price", "item_price", "quantity"] ]

Unnamed: 0,transaction_id,price,item_price,quantity
0,T0000000790,750000,210000,1
1,T0000000790,750000,120000,1
2,T0000000790,750000,180000,1
3,T0000000790,750000,120000,2
4,T0000005598,320000,50000,1
...,...,...,...,...
692,T0000006829,330000,120000,1
693,T0000003651,135000,50000,1
694,T0000003651,135000,85000,1
695,T0000006827,320000,50000,4


In [41]:
# duplicated() : 중복데이터를 체크하는 함수
# subset 매개변수 : 어떤 열의 데이터의 중복을 체크할 것인가? (기본값은 모든 열)
# keep :
#   'first' : 중복되는 데이터중 첫번째 데이터는 False
#   'last' : 중복되는 데이터중 마지막 데이터는 False
#   False : 중복되는 데이터는 모두 True
flag = total_df.duplicated(subset='transaction_id', keep=False)
total_df.loc[flag]

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
81,T0000000194,295000,2019-02-03 18:03:07,HD699115,81,S002,1,PC-B,85000
82,T0000000194,295000,2019-02-03 18:03:07,HD699115,82,S005,1,PC-E,210000
96,T0000000208,170000,2019-02-04 00:53:35,AS359364,96,S003,1,PC-C,120000
97,T0000000208,170000,2019-02-04 00:53:35,AS359364,97,S001,1,PC-A,50000
108,T0000000219,205000,2019-02-04 09:20:01,HD819739,108,S003,1,PC-C,120000
...,...,...,...,...,...,...,...,...,...
7072,T0000006829,330000,2019-07-30 07:26:30,GD862018,7072,S003,1,PC-C,120000
7107,T0000006864,100000,2019-07-31 03:42:20,IK341016,7107,S001,1,PC-A,50000
7108,T0000006864,100000,2019-07-31 03:42:20,IK341016,7108,S001,1,PC-A,50000
7128,T0000006884,260000,2019-07-31 18:12:37,PL491769,7128,S001,1,PC-A,50000


In [42]:
total_df.duplicated(subset='transaction_id', keep=False).value_counts()

False    6447
True      697
Name: count, dtype: int64

In [43]:
data = {
    'id' : ['a', 'b', 'c', 'd', 'd'],
    'pass' : ['1111', '1234', '2222', '0000', '0001']
}
test_df = pd.DataFrame(data)
test_df

Unnamed: 0,id,pass
0,a,1111
1,b,1234
2,c,2222
3,d,0
4,d,1


In [44]:
test_df.duplicated(subset='id', keep=False)

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [45]:
# 중복데이터를 제거하는 함수
test_df.drop_duplicates(subset='id', keep=False)

Unnamed: 0,id,pass
0,a,1111
1,b,1234
2,c,2222


In [46]:
total_df.head(1)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000


In [47]:
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  7144 non-null   object
 1   price           7144 non-null   int64 
 2   payment_date    7144 non-null   object
 3   customer_id     7144 non-null   object
 4   detail_id       7144 non-null   int64 
 5   item_id         7144 non-null   object
 6   quantity        7144 non-null   int64 
 7   item_name       7144 non-null   object
 8   item_price      7144 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 502.4+ KB


In [48]:
# 어떤 요일의 매출이 가장 높은가?
# payment_data를 시계열 데이터로 변경
total_df['payment_date'] = pd.to_datetime(total_df['payment_date'], format='%Y-%m-%d %H:%M:%S')

# 요일컬럼을 생성해서 시계열 데이터에서 요일(축약된 이름)을 추출하여 대입
# case1 (map함수 이용)
# total_df['payment_date'].map(
#     lambda x : x.strftime('%a')
# )
# case2 (Series에서 datetime 함수를 이용)
total_df['요일'] = total_df['payment_date'].dt.strftime('%a')

# price2 컬럼을 생성 item_price * quantity 결과를 대입
total_df['price2'] = total_df['item_price'] * total_df['quantity']

# 요일별로 그룹화하여 price2의 합산
group_data = total_df[['price2', '요일']].groupby('요일').sum()

# price2를 기준으로 내림차순 정렬
group_data.sort_values('price2', ascending=False)

Unnamed: 0_level_0,price2
요일,Unnamed: 1_level_1
Fri,144570000
Sun,140785000
Sat,140625000
Wed,139070000
Tue,137995000
Thu,136720000
Mon,131370000


In [49]:
total_df.describe()

Unnamed: 0,price,payment_date,detail_id,quantity,item_price,price2
count,7144.0,7144,7144.0,7144.0,7144.0,7144.0
mean,150440.929451,2019-05-02 11:29:03.763017984,3571.5,1.199888,121698.628219,135937.150056
min,50000.0,2019-02-01 01:36:57,0.0,1.0,50000.0,50000.0
25%,85000.0,2019-03-17 18:59:29.750000128,1785.75,1.0,50000.0,85000.0
50%,135000.0,2019-05-01 23:37:07.500000,3571.5,1.0,102500.0,120000.0
75%,210000.0,2019-06-17 18:01:00.500000,5357.25,1.0,187500.0,210000.0
max,750000.0,2019-07-31 23:41:38,7143.0,4.0,210000.0,420000.0
std,85991.561558,,2062.439494,0.513647,64571.31183,68511.453297


In [50]:
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   transaction_id  7144 non-null   object        
 1   price           7144 non-null   int64         
 2   payment_date    7144 non-null   datetime64[ns]
 3   customer_id     7144 non-null   object        
 4   detail_id       7144 non-null   int64         
 5   item_id         7144 non-null   object        
 6   quantity        7144 non-null   int64         
 7   item_name       7144 non-null   object        
 8   item_price      7144 non-null   int64         
 9   요일              7144 non-null   object        
 10  price2          7144 non-null   int64         
dtypes: datetime64[ns](1), int64(5), object(5)
memory usage: 614.1+ KB


In [51]:
# 중복된 데이터를 첫번째 한개를 남겨두고 모두 제거
total_df2 = total_df.drop_duplicates(subset='transaction_id',keep='first')
print(len(total_df2))
total_df2[['요일', 'price']].groupby('요일').sum().sort_values('price',ascending=False)

6786


Unnamed: 0_level_0,price
요일,Unnamed: 1_level_1
Fri,144570000
Sun,140785000
Sat,140625000
Wed,139070000
Tue,137995000
Thu,136720000
Mon,131370000


In [52]:
total_df2[['요일', 'price']].groupby('요일').agg(['count', 'mean', 'sum'])

Unnamed: 0_level_0,price,price,price
Unnamed: 0_level_1,count,mean,sum
요일,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Fri,1008,143422.619048,144570000
Mon,941,139606.801275,131370000
Sat,975,144230.769231,140625000
Sun,994,141634.808853,140785000
Thu,929,147168.998924,136720000
Tue,961,143595.213319,137995000
Wed,978,142198.364008,139070000


#### 특정 경로 상에 있는 파일들을 로드
- 일반적인 방법 : 상대경로, 정대결로를 이용해서 각각의 파일들을 로드
- 특정 경로에 존재하는 파일의 리스트 출력
    - os 라이브러리 사용
    - glob 라이브러리 사용
- 반복문을 이용하여 파일들을 모두 로드
    - 반복을 통해서 데이터프레임을 모두 행으로 결합
    - 반복을 통해서 데이터프레임을 각각 다른 변수에 대입

In [53]:
import os
from glob import glob

In [54]:
# os 라이브러리 안에 listdir() 사용
os.listdir("../../csv/2017")

['201702_expense_list.csv',
 '201709_expense_list.csv',
 '201712_expense_list.csv',
 '201706_expense_list.csv',
 '201703_expense_list.csv',
 '201708_expense_list.csv',
 '201707_expense_list.csv',
 '201704_expense_list.csv',
 '201710_expense_list.csv',
 '201701_expense_list.csv',
 '201705_expense_list.csv',
 '201711_expense_list.csv']

In [55]:
# 특정 경로를 변수에 저장
file_path = "../../csv/2017"
# 특정 경로의 파일의 목록
file_list = os.listdir(file_path)

# 반복문을 통해 로드가 되는 데이터프레임을 결합하는 빈 데이터프레임을 생성
df_2017 = pd.DataFrame()
# 반복문을 이용
for file_name in file_list:
    # pandas 안에 read_csv()함수를 이용하여 데이터프레임 로드
    # file_path(../../csv/2017)
    # file_name(201701_expenxe_list.csv)
    # file_path + file_name -> ../../csv/2017/201701_expenxe_list.csv
    # 경로상 문제 발생
    # file_path + "/" + file_name -> ../../csv/2017/2017/01_expenxe_list.csv
    df = pd.read_csv( file_path + "/" + file_name )
    # 첫번째 반복 : df = 201701 데이터프레임 생성
    #            concat()이용해서 df_2017과 df를 단순 행 결합
    df_2017 = pd.concat([df_2017, df] , axis = 0)


In [56]:
len(df_2017)

70132

In [57]:
len(
    pd.read_csv("../../csv/2017/201701_expense_list.csv")
)

5517

In [58]:
# 2019년도 폴더에 있는 파일들의 목록을 모두 로드하여 하나의 데이터프레임으로 생성
file_path = "../../csv/2019/"
file_list = os.listdir(file_path)
df_2019 = pd.DataFrame()
# case1 (while문)
i = 0

while True:
    try:
        file_name = file_list[i]

        df = pd.read_json(file_path + file_name)
        df_2019 = pd.concat([df_2019, df], axis = 0)
        i += 1
    except:
        break

# case2 (for문)
# for file_name in file_list:
#     df = pd.read_json(file_path + file_name)
#     df_2019 = pd.concat([df_2019, df], axis = 0)

In [59]:
len(df_2019)

74207

In [60]:
file_path = "../../csv/2020/"
file_list = os.listdir(file_path)
df_2020 = pd.DataFrame()

for file_name in file_list:
    df = pd.read_excel(file_path + file_name)
    df_2020 = pd.concat([df_2020, df])
# 인덱스 초기화하고 기존 인덱스 제거
df_2020.reset_index(drop=True, inplace=True)

In [61]:
# glob()
glob("../../csv/2021/*.csv")

['../../csv/2021/202107_expense_list.csv',
 '../../csv/2021/202103_expense_list.csv',
 '../../csv/2021/202108_expense_list.csv',
 '../../csv/2021/202112_expense_list.csv',
 '../../csv/2021/202106_expense_list.csv',
 '../../csv/2021/202102_expense_list.csv',
 '../../csv/2021/202109_expense_list.csv',
 '../../csv/2021/202105_expense_list.csv',
 '../../csv/2021/202111_expense_list.csv',
 '../../csv/2021/202101_expense_list.csv',
 '../../csv/2021/202104_expense_list.csv',
 '../../csv/2021/202110_expense_list.csv']

#### 함수를 생성
- 매개변수 2개 생성 ( _path, _end )
    - _path : 특정 경로
    - _end : 기본값(csv), 확장자 선택
- _path의 파일 목록을 저장
- 빈 데이터프레임을 생성
- 파일의 목록을 기준으로 반복문을 생성
    - _end에 따라 read_xxxx() 호출
    - 빈 데이터프레임에 read함수를 이용한 데이터프레임을 결합
    - 결합될때마다 데이터프레임의 길이를 출력
- 결합된 데이터프레임을 되돌려준다.


In [88]:
def data_load(_path, _end = 'csv'):
    # 파일의 목록을 생성
    file_list = os.listdir(_path)
    # 빈 데이터프레임 생성
    result = pd.DataFrame()
    file_path = _path + '/'
    print(file_path)
    print(file_list)
    # file_list2 = glob(file_path + "*." + _end)
    # case1 특정 파일 목록을 생성하는 방법
    # file_list에서 특정 확장자를 가진 파일의 목록을 새로 만든다.
    file_list2 = []
    for file in file_list:
        # file : 파일의 풀네임 ( 이름 + 확장자 )
        # 문자열의 마지막이 포함 여부를 나타내는 함수
        # if file.endswith(_end):
        # 문자열세어 _end의 길이만큼 마지막 문자를 출력해서 비교
        # if file[ -len(_end) : ] == _end:
        if file.split('.')[-1] == _end:
            file_list2.append(file)

    # for file_name in file_list:
    for file_name in file_list2:
        if _end == 'csv':
            df = pd.read_csv(file_path + file_name)
        elif _end == 'json':
            df = pd.read_json(file_path + file_name)
        elif _end == 'xml':
            df = pd.read_xml(file_path + file_name)
        # elif _end == "xlsx" or _end == "xls":
        elif _end in ['xlsx', 'xls']:
            df = pd.read_excel(file_path + file_name)
        else:
            # 함수에서 return의 기능?
            # 값을 되돌려준다
            # 함수를 종료
            return "해당 확장자는 사용이 불가능합니다."
        # 빈 데이터프레임에 결합
        result = pd.concat([result, df])
    return result

In [89]:
data_load('../../csv/2021', 'xml')

../../csv/2021/
['202110_expense_list.xlsx', '202110_expense_list.xml', '202105_expense_list.json', '202104_expense_list.xml', '202109_expense_list.xlsx', '202107_expense_list.csv', '202111_expense_list.xlsx', '202103_expense_list.csv', '202104_expense_list.json', '202108_expense_list.csv', '202108_expense_list.xlsx', '202101_expense_list.json', '202112_expense_list.xlsx', '202111_expense_list.xml', '202112_expense_list.csv', '202107_expense_list.json', '202106_expense_list.csv', '202105_expense_list.xml', '202102_expense_list.json', '202101_expense_list.xml', '202102_expense_list.csv', '202106_expense_list.json', '202103_expense_list.json', '202109_expense_list.csv', '202105_expense_list.csv', '202103_expense_list.xlsx', '202106_expense_list.xml', '202112_expense_list.xml', '202111_expense_list.csv', '202106_expense_list.xlsx', '202109_expense_list.xml', '202102_expense_list.xlsx', '202102_expense_list.xml', '202112_expense_list.json', '202101_expense_list.csv', '202107_expense_list.x

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-29 12:01,우면당손칼국수(서초구 매헌로 25),환경 정책 대책 간담회,원장 등 5명(접종완료자1명포함),카드,68000,
1,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-28 13:24,강남교자(중구 장충단로13길 13),미세먼지 대책 간담회,원장 등 2명,제로페이,25000,
2,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-27 12:38,동지섣달꽃본듯이(서초구 원터6길 3),주요 연구결과 홍보 계획 관련 논의 간담회,원장 등 5명(접종완료자1명포함),카드,144000,
3,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-26 00:00,소속 직원,연구지원부 소속 상근직원 경조사비,원장,현금,50000,
4,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-26 00:00,소속 직원,연구지원부 소속 직원 경조사비,원장,현금,50000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6898,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-17 12:06,3692숯불바베큐전문점(강동구 강동대로177),편찬원 홈페이지 운영 및 온라인 서비스 관련 간담회비,원장 등 4명,제로페이,56000,시책
6899,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-15 12:33,정목누룽지백숙(송파구 위례성대로12길 11),직원과의 소통 간담회비,원장 등 4명,제로페이,60000,기관
6900,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-11 11:32,산들해(송파구 위례성대로 6),생활치료센터 근무 후 복귀 직원 등 간담회비,원장 등 10명,제로페이,140000,기관
6901,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-02 14:35,나이스마트(강동구 성내로3가길 49),민원접대 및 직원회의용 다과 구매,원장 등 21명,카드,190000,부서


In [84]:
def data_load(_path, _end = "csv"):
    # 빈 데이터프레임 생성
    result = pd.DataFrame()
    file_path = _path + "/"
    file_list2 = glob(file_path + "*." + _end)
    print(file_list2)


    # for file_name in file_list:
    for file_name in file_list2:
        if _end == "csv":
            df = pd.read_csv(file_name)
        elif _end == "json":
            df = pd.read_json(file_name)
        elif _end == "xml":
            df = pd.read_xml(file_name)
        # elif _end == "xlsx" or _end == "xls":
        elif _end in ["xlsx", "xls"]:
            df = pd.read_excel(file_name)
        else:
            # 함수에서 return의 기능?
            # 값을 되돌려준다
            # 함수를 종료
            return "해당 확장자는 사용이 불가능합니다."
        # 빈 데이터프레임에 결합
        result = pd.concat([result, df])
    return result
        

In [85]:
data_load('../../csv/2021', 'xml')

['../../csv/2021/202110_expense_list.xml', '../../csv/2021/202104_expense_list.xml', '../../csv/2021/202111_expense_list.xml', '../../csv/2021/202105_expense_list.xml', '../../csv/2021/202101_expense_list.xml', '../../csv/2021/202106_expense_list.xml', '../../csv/2021/202112_expense_list.xml', '../../csv/2021/202109_expense_list.xml', '../../csv/2021/202102_expense_list.xml', '../../csv/2021/202107_expense_list.xml', '../../csv/2021/202108_expense_list.xml', '../../csv/2021/202103_expense_list.xml']


Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,...,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount,bimok
0,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-29 12:01,우면당손칼국수(서초구 매헌로 25),환경 정책 대책 간담회,원장 등 5명(접종완료자1명포함),카드,68000,
1,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-28 13:24,강남교자(중구 장충단로13길 13),미세먼지 대책 간담회,원장 등 2명,제로페이,25000,
2,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-27 12:38,동지섣달꽃본듯이(서초구 원터6길 3),주요 연구결과 홍보 계획 관련 논의 간담회,원장 등 5명(접종완료자1명포함),카드,144000,
3,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-26 00:00,소속 직원,연구지원부 소속 상근직원 경조사비,원장,현금,50000,
4,24041525,2021년 10월 사업소 보건환경연구원 연구지원부 업무추진비 - 전체,http://opengov.seoul.go.kr/expense/24041525,사업소,보건환경연구원,연구지원부,,,2021,10,...,0.0,,보건환경연구원 연구지원부,2021-10-26 00:00,소속 직원,연구지원부 소속 직원 경조사비,원장,현금,50000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6898,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-17 12:06,3692숯불바베큐전문점(강동구 강동대로177),편찬원 홈페이지 운영 및 온라인 서비스 관련 간담회비,원장 등 4명,제로페이,56000,시책
6899,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-15 12:33,정목누룽지백숙(송파구 위례성대로12길 11),직원과의 소통 간담회비,원장 등 4명,제로페이,60000,기관
6900,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-11 11:32,산들해(송파구 위례성대로 6),생활치료센터 근무 후 복귀 직원 등 간담회비,원장 등 10명,제로페이,140000,기관
6901,22835659,2021년 3월 사업소 서울역사편찬원 시사편찬과 업무추진비 - 전체,http://opengov.seoul.go.kr/public/22835659,사업소,서울역사편찬원,시사편찬과,,,2021,3,...,,,서울역사편찬원 시사편찬과,2021-03-02 14:35,나이스마트(강동구 성내로3가길 49),민원접대 및 직원회의용 다과 구매,원장 등 21명,카드,190000,부서


In [None]:
# 문자의 위치를 기준으로 조건식 생성
file_path[-1] == '/'
# endswith() 함수를 이용
file_path.endswith('/')

In [92]:
def data_load2(_path, _end = 'csv'):
    file_list = glob(_path + '/*.' + _end)

    # 반복문을 이용해서 전역변수들을 생성
    i = 1
    for file in file_list:
        if _end == 'csv':
            globals()[f"df{i}"] = pd.read_csv(file)
        elif _end == 'json':
            globals()[f"df{i}"] = pd.read_json(file)
        elif _end == 'xml':
            globals()[f"df{i}"] = pd.read_xml(file)
        elif _end in ['xlxs', 'xls']:
            globals()[f"df{i}"] = pd.read_excel(file)
        else:
            return "지원하는 확장자가 아닙니다."
        print(f"df{i}변수가 생성")
        i += 1
    print("변수 생성 완료")

In [93]:
data_load2("../../csv/num_3")

df1변수가 생성
df2변수가 생성
변수 생성 완료


In [104]:
df1

Unnamed: 0,class,class_name,price
0,C01,0_종일,10500
1,C02,1_주간,7500
2,C03,2_야간,6000


In [105]:
df2

Unnamed: 0,campaign_id,campaign_name
0,CA1,2_일반
1,CA2,0_입회비반액할인
2,CA3,1_입회비무료


In [90]:
file_path = "../csv/a.csv"
os.path.split(file_path)

('../csv', 'a.csv')

In [91]:
os.path.splitext(file_path)

('../csv/a', '.csv')

In [110]:
def data_load3(_path):
    # 파일의 목록 (모든 확장자)
    file_list = glob(_path + "/*.*")

    for file in file_list:
        # file : 경로 + 파일 이름 + 확장자
        # print(file)
        # 경로와 파일의 풀네임을 나눈다.
        file_path, file_name = os.path.split(file)
        # print(file_path)
        # print(file_name)
        # file_name에서 이름과 확장자로 나눠준다.
        head, tail = os.path.splitext(file_name)
        # print(head)
        # print(tail)
        # 전역 변수 생성 head 변수 데이터를 사용
        if tail == '.csv':
            globals()[head] = pd.read_csv(file)
            print(f"{head}은 전역변수 생성")
        elif tail == '.tsv':
            globals()[head] = pd.read_csv(file, sep='\t')
            print(f"{head}은 전역변수 생성")
        elif tail == '.json':
            globals()[head] = pd.read_json(file)
            print(f"{head}은 전역변수 생성")
        elif tail == '.xml':
            globals()[head] = pd.read_xml(file)
            print(f"{head}은 전역변수 생성")
        elif tail in ['.xlsx', '.xls']:
            globals()[head] = pd.read_excel(file)
            print(f"{head}은 전역변수 생성")
        else:
            print(f"{file_name}은 전역변수 생성 실패")

In [112]:
data_load3("./data")

Koweps_Codebook은 전역변수 생성
chipotle은 전역변수 생성
AAPL은 전역변수 생성


In [115]:
Koweps_Codebook

Unnamed: 0,변수명,설명,내용,범위,모름/무응답,출처 조사설계서
0,h10_g3,성별,1.남 2.여,N(1~2),모름/무응답=9,10차 머지데이터_변수명.xlsx
1,h10_g4,태어난 연도,년,N(1900~2014),모름/무응답=9999,10차 머지데이터_변수명.xlsx
2,h10_g10,혼인상태,0.비해당(18세 미만)\n1.유배우 2.사별 3.이혼...,N(0~6),모름/무응답=9,10차 머지데이터_변수명.xlsx
3,h10_g11,종교,1.있음 2.없음,N(1~2),모름/무응답=9,10차 머지데이터_변수명.xlsx
4,h10_eco9,직종,직종 코드표 참조,N(직종코드 시트참조),모름/무응답=9999,10차 머지데이터_변수명.xlsx
5,p1002_8aq1,일한달의 월 평균 임금,만원,N(1~9998),모름/무응답=9999,(2015년 10차 한국복지패널조사) 조사설계서-가구원용(beta1).xlsx
6,h10_reg7,7개 권역별 지역구분,1. 서울 2. 수도권(인천/경기) 3. 부산/경남/울산 ...,N(1~7),,(2015년 10차 한국복지패널조사) 조사설계서-가구용(beta1).xlsx
