#### 데이터프레임의 결합
- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수 이용
        - concat([데이터프레임명, 데이터프레임명, ...])
        - axis 매개변수
            - 0(rows) : 행 결합
            - 1(columns) : 열 결합
        - ignore_index 매개변수
            - False(기본값) : 결합되는 인덱스를 보존
            - True : 결합되는 인덱스를 초기화

- 조인 결합
    - 특정한 조건에 맞춰서 열을 결합
    - 데이터프레임과 데이터프레임 간의 조인 결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있는 경우에만 열을 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge(데이터프레임명, 데이터프레임명)
            - on 매개변수
                - 조건식 (두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임에서 기준이 되는 컬럼의 이름이 다른 경우
                    - 데이터프레임의 컬럼 이름을 같게 변경하고 결합
                    - left_on, right_on매개변수를 이용하여 컬럼 이름을 지정
            - how 매개변수
                - 조인결합의 방법을 지정
                    - inner : 두 개의 데이터프레임이 공통적으로 갖고 있는 데이터만 결합해서 출력
                    - left : 왼쪽의 데이터프레임을 기준으로 결합
                    - right : 오른쪽의 데이터프레임을 기준으로 결합
                    - outer : 두 개의 데이터프레임의 합집합

In [108]:
import pandas as pd

In [109]:
data = {
    'name' : ['test','test2','test3'],
    'age' : [20,30,40]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [110]:
data2 = {
    'name' : ['test4','test5'],
    'loc' : ['seoul','busan']
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [111]:
#concat() 행으로 결합
pd.concat([df,df2])

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [112]:
#인덱스 초기화
pd.concat([df,df2],ignore_index=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [113]:
pd.concat([df,df2]).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [114]:
pd.concat([df,df2]).reset_index().drop('index', axis=1)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [115]:
# concat() : 열로 합치기
pd.concat([df,df2],axis=1)  

Unnamed: 0,name,age,name.1,loc
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [116]:
pd.concat([df,df2],axis=1,ignore_index = True)

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [117]:
data3 = {
    'name' : ['test6','test7'],
    'age' : [25, 35]
}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,name,age
0,test6,25
1,test7,35


In [118]:
pd.concat([df,df2,df3],ignore_index=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan
5,test6,25.0,
6,test7,35.0,


In [119]:
pd.concat([df,df2,df3],axis = 1)

Unnamed: 0,name,age,name.1,loc,name.2,age.1
0,test,20,test4,seoul,test6,25.0
1,test2,30,test5,busan,test7,35.0
2,test3,40,,,,


In [120]:
df3.rename(
    index={
        0 : 10,
        1 :15
    })

Unnamed: 0,name,age
10,test6,25
15,test7,35


In [121]:
df3.index = [10,15]
df3

Unnamed: 0,name,age
10,test6,25
15,test7,35


In [122]:
pd.concat([df,df2,df3],axis=1)

Unnamed: 0,name,age,name.1,loc,name.2,age.1
0,test,20.0,test4,seoul,,
1,test2,30.0,test5,busan,,
2,test3,40.0,,,,
10,,,,,test6,25.0
15,,,,,test7,35.0


In [123]:
df.concat([df2,df3],axis=0)
#데이터프레임에는 concat()함수가 없다 !

AttributeError: 'DataFrame' object has no attribute 'concat'

In [124]:
#merge()
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [125]:
data4 = {
    'name' : ['test','test2','test4'],
    'loc' : ['서울','경기','대구']
}
df4 = pd.DataFrame(data4)
df4 

Unnamed: 0,name,loc
0,test,서울
1,test2,경기
2,test4,대구


In [126]:
pd.merge(df,df4,on='name',how='inner')

Unnamed: 0,name,age,loc
0,test,20,서울
1,test2,30,경기


In [127]:
pd.merge(df,df4,on='name',how='left')

Unnamed: 0,name,age,loc
0,test,20,서울
1,test2,30,경기
2,test3,40,


In [128]:
pd.merge(df,df4,on='name',how='right')

Unnamed: 0,name,age,loc
0,test,20.0,서울
1,test2,30.0,경기
2,test4,,대구


In [129]:
pd.merge(df,df4,on='name',how='outer')

Unnamed: 0,name,age,loc
0,test,20.0,서울
1,test2,30.0,경기
2,test3,40.0,
3,test4,,대구


In [130]:
data5 = {
    'location' : ['서울','경기','대구','세종'],
    'code' : ['11','31','32','41']
}
df5 = pd.DataFrame(data5)
df5

Unnamed: 0,location,code
0,서울,11
1,경기,31
2,대구,32
3,세종,41


In [131]:
pd.merge(df4,df5,left_on='loc',right_on='location',how='inner')

Unnamed: 0,name,loc,location,code
0,test,서울,서울,11
1,test2,경기,경기,31
2,test4,대구,대구,32


In [132]:
#두 개의 데이터프레임 중 하나의 컬럼의 이름ㅇ르 변겨하고 조인결합
df5.rename(
    columns={
        'location' : 'loc'
    },
    inplace=True
)

In [133]:
pd.merge(df4,df5,on='loc',how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


In [134]:
df4.merge(df5,on='loc',how='inner')

Unnamed: 0,name,loc,code
0,test,서울,11
1,test2,경기,31
2,test4,대구,32


#### 데이터프레임 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2파일 로드
2. tran_1, tran_2를 단순 행 결합
3. tran_d_1,tran_d_2를 단순 행 결합
4. 2번의 결과와 3번의 결과를 조인 결합

In [135]:
cs1=pd.read_csv('../csv/tran_1.csv')
cs2=pd.read_csv('../csv/tran_2.csv')
cs3=pd.read_csv('../csv/tran_d_1.csv')
cs4=pd.read_csv('../csv/tran_d_2.csv')

In [136]:
# 1 2 단순 행 결합
re1 = pd.concat([cs1,cs2],axis=0,ignore_index=True)

In [137]:
# 3 4 단순 행 결합
re2 = pd.concat([cs3,cs4],axis=0,ignore_index=True)

In [138]:
re1.head(3)
re1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6786 entries, 0 to 6785
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  6786 non-null   object
 1   price           6786 non-null   int64 
 2   payment_date    6786 non-null   object
 3   customer_id     6786 non-null   object
dtypes: int64(1), object(3)
memory usage: 212.2+ KB


In [139]:
re2.head(3)
re2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   detail_id       7144 non-null   int64 
 1   transaction_id  7144 non-null   object
 2   item_id         7144 non-null   object
 3   quantity        7144 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 223.4+ KB


In [140]:
#조인 결합
df = pd.merge(re1,re2,on='transaction_id',how='inner')

In [141]:
#item_mater 파일 로드
item_master = pd.read_csv('../csv/item_master.csv')

In [142]:
item_master

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [143]:
cs3.head(1)

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1


In [144]:
#df와 item_master를 조인 결합
pr_test = df.merge(item_master,on='item_id',how='left')

In [145]:
pr_test['transaction_id']

0       T0000000113
1       T0000000114
2       T0000000115
3       T0000000116
4       T0000000117
           ...     
7139    T0000006894
7140    T0000006895
7141    T0000006896
7142    T0000006897
7143    T0000006898
Name: transaction_id, Length: 7144, dtype: object

In [151]:
#transaction_id가 2개 이상인 데이터들만 출력
#중복데이터가 존재하는가?

#값들의 카운터를 확인하는 함수
# pr_test['transaction_id'].value_counts()

#인덱스를 이동하는 함수 shift()


list = [] #중복되지 않는 id
multi_list = [] #중복되는 id
for i in pr_test['transaction_id']:
    if i in list:
        multi_list.append(i)
    else:
        list.append(i)
a =pd.DataFrame(multi_list)



In [157]:
len(a[0].unique())

339

In [166]:
#duplicated() : 중복 데이터를 체크하는 함수
#subset 매개변수 : 어떤 열의 데이터의 중복을 체크할것인가? ( 기본값은 모든 열)
#keep :
# 'first' : 중복되는 데이터중 첫번째 데이터는 false
# 'last' : 중복되는 데이터 중 마지막 데이터는 False
# False : 중복되는 데이터 모두 True
flag=pr_test.duplicated(subset = 'transaction_id',keep=False)
pr_test.loc[flag].value_counts()

transaction_id  price   payment_date         customer_id  detail_id  item_id  quantity  item_name  item_price
T0000006884     260000  2019-07-31 18:12:37  PL491769     7129       S005     1         PC-E       210000        1
T0000000194     295000  2019-02-03 18:03:07  HD699115     81         S002     1         PC-B       85000         1
                                                          82         S005     1         PC-E       210000        1
T0000000208     170000  2019-02-04 00:53:35  AS359364     96         S003     1         PC-C       120000        1
                                                          97         S001     1         PC-A       50000         1
                                                                                                                ..
T0000000336     240000  2019-02-07 05:45:02  HI501312     230        S003     1         PC-C       120000        1
T0000000319     220000  2019-02-06 19:28:13  PL807633     213        S002     2      

In [172]:
pr_test.head(5)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [170]:
pr_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7144 entries, 0 to 7143
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   transaction_id  7144 non-null   object
 1   price           7144 non-null   int64 
 2   payment_date    7144 non-null   object
 3   customer_id     7144 non-null   object
 4   detail_id       7144 non-null   int64 
 5   item_id         7144 non-null   object
 6   quantity        7144 non-null   int64 
 7   item_name       7144 non-null   object
 8   item_price      7144 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 502.4+ KB


#### 어떤 요일에 매출이 가장 높은가?

In [173]:
#payment_date를 시게열 데이터로 변경
#요일 컬럼을 생성해서 시계열 데이터에서 요일(축약된 이름 %a)을 추출하여 생성
#price2 컬럼을 생성 item_price * quantity 결과를 대입
#요일별로 그룹화하여 price2의 합산을 봄
#price2를 기준으로 내림차순 정렬

In [178]:
from datetime import datetime

In [175]:
dfdf = pr_test.copy()

In [189]:
dfdf.head()

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000
2,T0000000115,120000,2019-02-01 02:34:19,HD298120,2,S003,1,PC-C,120000
3,T0000000116,210000,2019-02-01 02:47:23,IK452215,3,S005,1,PC-E,210000
4,T0000000117,170000,2019-02-01 04:33:46,PL542865,4,S002,2,PC-B,85000


In [195]:
dfdf['payment_date'][0]

'2019-02-01 01:36:57'

In [198]:
pd.to_datetime(dfdf['payment_date'], format='%Y-%m-%d %H:%M:%S')

0      2019-02-01 01:36:57
1      2019-02-01 01:37:23
2      2019-02-01 02:34:19
3      2019-02-01 02:47:23
4      2019-02-01 04:33:46
               ...        
7139   2019-07-31 21:20:44
7140   2019-07-31 21:52:48
7141   2019-07-31 23:35:25
7142   2019-07-31 23:39:35
7143   2019-07-31 23:41:38
Name: payment_date, Length: 7144, dtype: datetime64[ns]

In [None]:
#payment_date를 시계열 데이터로 변경
dfdf['payment_date'] = pd.to_datetime(dfdf['payment_date'], format='%Y-%m-%d %H:%M:%S')

In [203]:
#case1 (map함수)
dfdf['payment_date'].map(
    lambda x : x.strftime('%a')
)

#case2(series에서 datetime 함수 사용)
dfdf['요일'] = dfdf['payment_date'].dt.strftime('%a')

In [206]:
#price2 컬럼을 생성 item_price * quantity 결과를 대입
# 그 전에 0과 결측치가 있는지 확인
dfdf.describe()


Unnamed: 0,price,payment_date,detail_id,quantity,item_price
count,7144.0,7144,7144.0,7144.0,7144.0
mean,150440.929451,2019-05-02 11:29:03.763017984,3571.5,1.199888,121698.628219
min,50000.0,2019-02-01 01:36:57,0.0,1.0,50000.0
25%,85000.0,2019-03-17 18:59:29.750000128,1785.75,1.0,50000.0
50%,135000.0,2019-05-01 23:37:07.500000,3571.5,1.0,102500.0
75%,210000.0,2019-06-17 18:01:00.500000,5357.25,1.0,187500.0
max,750000.0,2019-07-31 23:41:38,7143.0,4.0,210000.0
std,85991.561558,,2062.439494,0.513647,64571.31183


In [209]:
#price2 컬럼을 생성 item_price * quantity 결과를 대입
dfdf['price2'] = dfdf['quantity'] * dfdf['item_price']

In [210]:
#요일별로 그룹화. price2 합산
group_data = dfdf[['price2', '요일']].groupby('요일').sum()
group_data.sort_values('price2',ascending =False)

Unnamed: 0_level_0,price2
요일,Unnamed: 1_level_1
Fri,144570000
Sun,140785000
Sat,140625000
Wed,139070000
Tue,137995000
Thu,136720000
Mon,131370000


In [212]:
#중복된 데이터를 첫번째 한 개를 남겨두고 모두 제거
total_df2 = dfdf.drop_duplicates(subset= 'transaction_id', keep = 'first')
print(len(total_df2))

6786


In [214]:
total_df2[['요일','price']].groupby('요일').sum().sort_values('price',ascending=False)

Unnamed: 0_level_0,price
요일,Unnamed: 1_level_1
Fri,144570000
Sun,140785000
Sat,140625000
Wed,139070000
Tue,137995000
Thu,136720000
Mon,131370000


In [217]:
total_df2[['요일','price']].groupby('요일').agg(['count','mean','sum'])

Unnamed: 0_level_0,price,price,price
Unnamed: 0_level_1,count,mean,sum
요일,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Fri,1008,143422.619048,144570000
Mon,941,139606.801275,131370000
Sat,975,144230.769231,140625000
Sun,994,141634.808853,140785000
Thu,929,147168.998924,136720000
Tue,961,143595.213319,137995000
Wed,978,142198.364008,139070000


#### 특정 경로 상에 있는 파일들을 로드
- 일반적인 방법 : 상대경로, 절대경로를 이용해서 각각의 파일들을 로드
- 특정 경로에 존재하는 파일의 리스트 출력
    - os 라이브러리 사용
    - glob 라이브러리 사용
- 반복문을 이용하여 파일들을 모두 로드
    - 반복을 통해서 데이터 프레임을 모두 행 결합
    - 반복을 통해서 데이터프레임을 각각 다른 변수에 대입

In [5]:
import os
from glob import glob
import pandas as pd

In [12]:
#os 라이브러리 안에 listdir() 사용
os.listdir('../csv/2017')

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [13]:
# 특정 경로를 변수에 저장
file_path = '../csv/2017'
# 특정 경로의 파일의 목록
file_list = os.listdir(file_path)

df_2017 = pd.DataFrame()
#반복문을 이용
for file_name in file_list:
    #pandas안에 read_csv()함수로 데이터프레임 로드
    df = pd.read_csv(file_path + '/' + file_name)
    df_2017 = pd.concat([df_2017,df],axis=0,ignore_index=True)

In [14]:
len(df_2017)

70132

In [15]:
os.listdir('../csv/2019')

['201901_expense_list.json',
 '201902_expense_list.json',
 '201903_expense_list.json',
 '201904_expense_list.json',
 '201905_expense_list.json',
 '201906_expense_list.json',
 '201907_expense_list.json',
 '201908_expense_list.json',
 '201909_expense_list.json',
 '201910_expense_list.json',
 '201911_expense_list.json',
 '201912_expense_list.json']

In [16]:
# # 2019년도 폴더 모두 합치기

# # 특정 경로를 변수에 저장
# file_path = '../csv/2019'
# # 특정 경로의 파일의 목록
# file_list = os.listdir(file_path)

# df_2019 = pd.DataFrame()
# #반복문을 이용
# for file_name in file_list:
#     #pandas안에 read_csv()함수로 데이터프레임 로드
#     df = pd.read_json(file_path + '/' + file_name)
#     df_2019 = pd.concat([df_2019,df],axis=0,ignore_index=True)

In [17]:
file_path = '../csv/2019/'
file_list = os.listdir(file_path)
df_2019 = pd.DataFrame()

i=0

while True:
    try:
        file_name = file_list[i]
    
        df = pd.read_json(file_path+file_name)
        df_2019 = pd.concat([df_2019,df],axis=0)
        i+=1
    except:
        break

In [18]:
len(df_2019)

74207

In [19]:
file_path = '../csv/2020/'
file_list = os.listdir(file_path)

df_2020 = pd.DataFrame()

for file_name in file_list:
    df = pd.read_excel(file_path + file_name)
    df_2020 = pd.concat([df_2020,df],axis=0)
    
#인덱스 초기화하고 기존 인덱스 제거
df_2020.reset_index(drop=True,inplace=True)

In [20]:
len(df_2020)

70862

In [21]:
#glob()
glob('../csv/2021/*.json')

['../csv/2021\\202101_expense_list.json',
 '../csv/2021\\202102_expense_list.json',
 '../csv/2021\\202103_expense_list.json',
 '../csv/2021\\202104_expense_list.json',
 '../csv/2021\\202105_expense_list.json',
 '../csv/2021\\202106_expense_list.json',
 '../csv/2021\\202107_expense_list.json',
 '../csv/2021\\202108_expense_list.json',
 '../csv/2021\\202109_expense_list.json',
 '../csv/2021\\202110_expense_list.json',
 '../csv/2021\\202111_expense_list.json',
 '../csv/2021\\202112_expense_list.json']

#### 함수를 생성
- 매개변수 2개 생성(_path, _end)
    - _path : 특정 경로
    - _end : 기본값(csv), 확장자 선택
- _path의 파일 목록을 저장
- 빈 데이터프레임 생성
- 파일의 목록을 기준으로 반복문 생성
    - _end에 따라 read_xxxx() 호출
    - 빈 데이터프레임에 read함수를 이용한 데이터프레임을 결합
    - 결합될 때마다 데이터프레임의 길이를 출력
- 결합된 데이터프레임을 되돌려준다

In [1]:
def data_load(_path,_end='csv'):
    # 파일 목록 생성
    file_list = os.listdir(_path)
    # 빈 데이터프레임 생성
    result = pd.DataFrame()
    file_path = _path + '/'
    # file_list에서 특정 확장자를 가진 파일의 목록을 새로 만든다.
    file_list2 = []
    for file in file_list:
        # file : 파일의 풀네임 들어옴 (이름 + 확장자)
        # 문자 열의 마지막이 포함 여부를 나타내는 함수
        if file.endswith(_end):
            file_list2.append(file)
        # 문자열에서 _end의 길이만큼 마지막 문자를 출력해서 비교
        # if file[-len(_end):] == _end:
        # if file.split('.')[-1] == _end:
    
    for file_name in file_list2:
        if _end == 'csv':
            df = pd.read_csv(file_path + file_name)
        elif _end == 'json':
            df = pd.read_json(file_path + file_name)
        elif _end == 'xml':
            df = pd.read_xml(file_path + file_name)
        # elif _end == 'xlsx' or _end == 'xls':
        elif _end in ['xlsx','xls']:
            df = pd.read_excel(file_path + file_name)
        else:
            # 함수에서 return의 기능은?
            # 값을 되돌려준다. + 함수를 종료
            return "해당 확장자는 사용이 불가합니다."
        # 빈 데이터프레임에 결합
        result = pd.concat([result,df])
    return result

In [2]:
# 파일 리스트에서 원하는 확장자가 아닌 파일의 목록을 제거하는 방법(remove()이용)
def data_load2(_path,_end='csv'):
    # 파일 목록 생성
    file_list = os.listdir(_path)
    # 빈 데이터프레임 생성
    result = pd.DataFrame()
    file_path = _path + '/'
    
    for file in file_list:
        if not(file.endswith(_end)):
            file_list.remove(file)
    
    for file_name in file_list:
        if _end == 'csv':
            df = pd.read_csv(file_path + file_name)
        elif _end == 'json':
            df = pd.read_json(file_path + file_name)
        elif _end == 'xml':
            df = pd.read_xml(file_path + file_name)
        # elif _end == 'xlsx' or _end == 'xls':
        elif _end in ['xlsx','xls']:
            df = pd.read_excel(file_path + file_name)
        else:
            # 함수에서 return의 기능은?
            # 값을 되돌려준다. + 함수를 종료
            return "해당 확장자는 사용이 불가합니다."
        # 빈 데이터프레임에 결합
        result = pd.concat([result,df])
    return result

In [6]:
def data_load3(_path,_end='csv'):
    file_list = glob(_path + '/*.' + _end)
    
    #반복문을 이용해서 전역변수들을 생성
    i = 1
    for file in file_list:
        if _end == 'csv':
            globals()[f'df{i}'] = pd.read_csv(file)
        elif _end == 'json':
             globals()[f'df{i}'] = pd.read_json(file)
        elif _end == 'xml':
             globals()[f'df{i}'] = pd.read_xml(file)
        elif _end in ['xlsx','xls']:
             globals()[f'df{i}'] = pd.read_excel(file)
        else:
            return '지원하는 확장자가 아닙니다.'
        print(f'df{i} 변수가 생성')
        i+=1
    print('변수 생성 완료')

In [7]:
data_load3('../csv/num_3')

df1 변수가 생성
df2 변수가 생성
df3 변수가 생성
df4 변수가 생성
변수 생성 완료


In [8]:
df1

Unnamed: 0,campaign_id,campaign_name
0,CA1,2_일반
1,CA2,0_입회비반액할인
2,CA3,1_입회비무료


In [19]:
def data_load3(_path):
    #파일의 목록 : 모든 확장자.
    file_list = glob(_path + '/*.*')
    
    for file in file_list:
        #file : 상대 경로, 파일 이름, 확장자로 구성됨
        # print(file)
        #경로와 파일의 풀 네임을 나눠주는 작업
        file_path, file_name = os.path.split(file)
        # print(file_path)
        # print(file_name)
        #file_name에서 이름과 확장자로 나눔.
        head, tail = os.path.splitext(file_name)
        # print(head)
        # print(tail)
        #전역변수
        if tail == '.csv':
            globals()[head] = pd.read_csv(file)
            print(f'{head}는 전역변수 생성')
        elif tail == '.tsv':
            globals()[head] = pd.read_csv(file,sep='\t')
            print(f'{head}는 전역변수 생성')
        elif tail == '.xml':
            globals()[head] = pd.read_xml(file)
            print(f'{head}는 전역변수 생성')
        elif tail == '.json':
            globals()[head] = pd.read.json(file)
            print(f'{head}는 전역변수 생성')
        elif tail in ['xlsx','xls']:
            globals()[head] = pd.read_excel(file)
            print(f'{head}는 전역변수 생성')
        else:
            print(f"{file_name}은 전역변수 생성 실패")

In [20]:
data_load3('../python_basic')

1.test.ipynb은 전역변수 생성 실패
10.uriage(데이터정형화).ipynb은 전역변수 생성 실패
11.sales(데이터그룹화).ipynb은 전역변수 생성 실패
12.datetime(가장많은일일확진자).ipynb은 전역변수 생성 실패
13.concat(데이터프레임결합).ipynb은 전역변수 생성 실패
13example.ipynb은 전역변수 생성 실패
2.class.ipynb은 전역변수 생성 실패
3.function.ipynb은 전역변수 생성 실패
4.test_mod.ipynb은 전역변수 생성 실패
5.class.ipynb은 전역변수 생성 실패
6.class.ipynb은 전역변수 생성 실패
7.pandas.ipynb은 전역변수 생성 실패
8.pandas.ipynb은 전역변수 생성 실패
9.corona(데이터살펴보기).ipynb은 전역변수 생성 실패
mod.py은 전역변수 생성 실패
