## 특정 경로에 있는 파일의 목록을 로드

1. 일반적인 방법 - > 상대경로, 절대경로를 이용해서 파일을 하나씩 로드
2. 특정 경로에 있는 파일의 목록(list)을 기준으로 데이터 로드
    - os 라이브러리 이용하는 방법
    - glob 라이브러리 이용하는 방법
3. 파일의 목록을 기준으로 데이터를 for문을 이용해서 로드


In [1]:
import os
import glob
import pandas as pd

In [2]:
## csv 폴더 안에 있는 2017 폴더에 있는 데이터들을 로드

    # os 라이브러리를 이용하여 파일의 목록을 불러온다.
        # 목록(list) + 파일의 목록을 보는 명령어 (dir)
os.listdir('../../csv/2017')

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [3]:
# 파일 목록을 로드할 경로를 변수에 저장

file_path = '../../csv/2017/'
file_list = os.listdir(file_path)

file_list

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [4]:
total_df = pd.DataFrame()

for i in file_list:
    df = pd.read_csv(file_path + i)
    total_df = pd.concat([total_df, df], axis= 0, ignore_index= True) # for문 안에 유니언 결합 넣어서 더해주기 (빈 리스트에 데이터 계속 append 하는 것과 같음)
                                                                        # 근데 join 결합 계속 하는 것도 괜찮겠다. 어차피 2개씩만 계속 더해지니까 말야.

In [5]:
total_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70132 entries, 0 to 70131
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nid                70132 non-null  int64  
 1   title              70132 non-null  object 
 2   url                70132 non-null  object 
 3   dept_nm_lvl_1      70132 non-null  object 
 4   dept_nm_lvl_2      70074 non-null  object 
 5   dept_nm_lvl_3      61262 non-null  object 
 6   dept_nm_lvl_4      17939 non-null  object 
 7   dept_nm_lvl_5      3474 non-null   object 
 8   exec_yr            70132 non-null  int64  
 9   exec_month         70132 non-null  int64  
 10  expense_budget     3108 non-null   float64
 11  expense_execution  2805 non-null   float64
 12  category           1259 non-null   object 
 13  dept_nm_full       70053 non-null  object 
 14  exec_dt            70132 non-null  object 
 15  exec_loc           69360 non-null  object 
 16  exec_purpose       701

In [6]:
total_df.isna().any()

nid                  False
title                False
url                  False
dept_nm_lvl_1        False
dept_nm_lvl_2         True
dept_nm_lvl_3         True
dept_nm_lvl_4         True
dept_nm_lvl_5         True
exec_yr              False
exec_month           False
expense_budget        True
expense_execution     True
category              True
dept_nm_full          True
exec_dt              False
exec_loc              True
exec_purpose          True
target_nm             True
payment_method        True
exec_amount          False
dtype: bool

In [7]:
file_path_2019 = '../../csv/2019/'
file_list_2019 = os.listdir(file_path_2019)

file_list_2019

['201901_expense_list.json',
 '201902_expense_list.json',
 '201903_expense_list.json',
 '201904_expense_list.json',
 '201905_expense_list.json',
 '201906_expense_list.json',
 '201907_expense_list.json',
 '201908_expense_list.json',
 '201909_expense_list.json',
 '201910_expense_list.json',
 '201911_expense_list.json',
 '201912_expense_list.json']

In [8]:
result_2019 = pd.DataFrame()

for file in file_list_2019:
    df = pd.read_json(file_path_2019 + file)
    result_2019 = pd.concat([result_2019, df], axis= 0, ignore_index= True)

In [9]:
result_2019.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74207 entries, 0 to 74206
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nid                74207 non-null  int64  
 1   title              74207 non-null  object 
 2   url                74207 non-null  object 
 3   dept_nm_lvl_1      74207 non-null  object 
 4   dept_nm_lvl_2      74207 non-null  object 
 5   dept_nm_lvl_3      74207 non-null  object 
 6   dept_nm_lvl_4      74207 non-null  object 
 7   dept_nm_lvl_5      74207 non-null  object 
 8   exec_yr            74207 non-null  int64  
 9   exec_month         74207 non-null  int64  
 10  expense_budget     2075 non-null   float64
 11  expense_execution  1598 non-null   float64
 12  category           74028 non-null  object 
 13  dept_nm_full       74207 non-null  object 
 14  exec_dt            74207 non-null  object 
 15  exec_loc           74207 non-null  object 
 16  exec_purpose       742

In [10]:
file_path_2020 = '../../csv/2020/'
file_list_2020 = os.listdir(file_path_2020)

file_list_2020

result_2020 = pd.DataFrame()

for file in file_list_2020:
    df = pd.read_excel(file_path_2020 + file)
    result_2020 = pd.concat([result_2020, df], axis= 0, ignore_index= True)

In [11]:
!pip install lxml



In [46]:
file_path_2021 = '../../csv/2021/' # 오늘 복습 할 부분이고만 !
file_list_2021 = os.listdir(file_path_2021)

file_list_2021

result_2021 = pd.DataFrame()

for file in file_list_2021: # .split('.')[-1] == csv/json/xml/xlsx # .endswith('csv'/'json'/'xml'/'xlsx')
    if 'csv' in file:
        df = pd.read_csv(file_path_2021 + file)
    elif 'json' in file:
        df = pd.read_json(file_path_2021 + file)
    elif 'xml' in file:
        df = pd.read_xml(file_path_2021 + file)
    elif 'xlsx' in file:
        df = pd.read_excel(file_path_2021 + file)
    result_2021 = pd.concat([result_2021, df], axis= 0, ignore_index= True)

In [47]:
file_name, file_end = os.path.splitext(file_list_2021[0]) # 가장 확실한 확장자 찾기 방법 # 변수 두 개에 tuple 데이터 나눠서 대입

file_path_2021 = '../../csv/2021/'
file_list_2021 = os.listdir(file_path_2021)

file_list_2021

result_2021 = pd.DataFrame()

for file in file_list_2021:
    file_name, file_end = os.path.splitext(file)
    if file_end == '.csv':
        df = pd.read_csv(file_path_2021 + file)
    elif file_end == '.json':
        df = pd.read_csv(file_path_2021 + file)
    elif file_end == '.xml':
        df = pd.read_xml(file_path_2021 + file)
    elif file_end == '.xlsx':
        df = pd.read_excel(file_path_2021 + file)
    result_2021 = pd.concat([result_2021, df], axis= 0, ignore_index= True)

In [None]:
file_path_2021 = '../../csv/2021/'
file_list_2021 = os.listdir(file_path_2021)

file_list_2021

result_2021 = pd.DataFrame()


In [None]:
for file in file_list_2021:
    file_name, file_end = os.path.splitext(file)
    if file.endswith('xml'):
        df = pd.read_xml(file_path_2021 + file)
    elif file.split('.')[-1] in ['xls', 'xlsx']:
        df = pd.read_excel(file_path_2021 + file)
    elif file_end == 'json':
        df = pd.read_json(file_path_2021 + file)
    elif file.split('.')[-1] == 'csv':
        df = pd.read_csv(file_path_2021 + file)
    result_2021 = pd.concat([result_2021, df], axis= 0, ignore_index= True)

In [None]:
result_2021.describe()

Unnamed: 0,nid,exec_yr,exec_month,expense_budget,expense_execution,exec_amount
count,340154.0,340154.0,340154.0,242096.0,242096.0,340154.0
mean,23611760.0,2021.0,7.02934,0.0,0.0,110167.3
std,930820.0,0.0,3.531705,0.0,0.0,212731.7
min,22134340.0,2021.0,1.0,0.0,0.0,0.0
25%,22858640.0,2021.0,4.0,0.0,0.0,50000.0
50%,23480010.0,2021.0,7.0,0.0,0.0,78000.0
75%,24083610.0,2021.0,10.0,0.0,0.0,116300.0
max,25282380.0,2021.0,12.0,0.0,0.0,25575000.0


In [None]:
globals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  "file_name, file_end = os.path.splitext(file_list_2021[0]) # 가장 확실한 확장자 찾기 방법 # 변수 두 개에 tuple 데이터 나눠서 대입\n\nfile_path_2021 = '../../csv/2021/'\nfile_list_2021 = os.listdir(file_path_2021)\n\nfile_list_2021\n\nresult_2021 = pd.DataFrame()\n\nfor file in file_list_2021:\n    file_name, file_end = os.path.splitext(file)\n    if file_end == '.csv':\n        df = pd.read_csv(file_path_2021 + file)\n    elif file_end == '.json':\n        df = pd.read_csv(file_path_2021 + file)\n    elif file_end == '.xml':\n        df = pd.read_xml(file_path_2021 + file)\n    elif file_end == '.xlsx':\n        df = pd.read_excel(file_path_2021 + file)\n    result_2021 = pd.concat([result_2021, df], axis= 0, ignore_index= True)",
  'im

In [12]:
globals()['a1'] = 10

print(a1)

10


In [17]:
## 2021 폴더에 있는 파일들을 각각 다른 변수에 저장

file_path = '../../csv/2021/'
file_list = os.listdir(file_path)

for file in file_list:
    # 사용할 변수의 이름
    name, end = os.path.splitext(file)

    # end에 있는 .을 제거 # end[1:], end.lstrip('.') 
    end = end.replace('.', '')
    if end == 'csv':
        df = pd.read_csv(file_path + file)
    elif end == 'json':
        df = pd.read_json(file_path + file)
    elif end == 'xml':
        df = pd.read_xml(file_path + file)
    elif end in ['xlsx', 'xls']:
        df = pd.read_excel(file_path + file)
    else:
        continue
    globals()[f'{name}_{end}'] = df.copy()

In [None]:
globals()['202101_expense_list_csv']

In [20]:
## 지정된 경로에 파일들을 하나의 데이터프레임으로 결합하여 되돌려주는 함수 생성
    # 매개변수의 수 -> 경로, 확장자명

def data_load(_path, _end = 'csv'):
    # _path == 파일의 경로
    # _end == 파일의 확장자명

    # 유저가 입력한 경로를 이용하여 파일의 리스트를 변수에 저장
    file_list = os.listdir(_path)
    # 비어있는 데이터프레임을 생성
    result = pd.DataFrame()

    # 경로에 //가 있는 것도 /로 정상 작동하기 때문에 조건을 나누지 않고 그냥 일률적으로 / 붙여도 실행가능
    _path = _path + '/'

    for file in file_list:
        # file == 파일명
        # 파일명의 확장자가 유저가 입력한 확장자와 같다면
        if file.endswith(_end):
            if _end == 'csv':
                df = pd.read_csv(_path + file)
            elif _end == 'json':
                df = pd.read_json(_path + file)
            elif _end == 'xml':
                df = pd.read_xml(_path + file)
            elif _end in ['xlsx', 'xls']:
                df = pd.read_excel(_path + file)
            else:
                return '지원하는 확장자가 아닙니다.'
            # df를 result에 유니언 결합
            result = pd.concat([result, df], axis= 0, ignore_index= True)
        else:
            return '파일명의 확장자와 입력한 확장자가 다릅니다.'
    return result

In [23]:
data_load(
    r'c:\Users\USER\Documents\GitHub\test_1\csv\2018/', 'json'
)

'파일명의 확장자와 입력한 확장자가 다릅니다.'