### 특정 경로에 있는 파일의 목록을 확인
1. 일반적으로 경로를 설정하고 파일의 이름을 지정하는 방법
    - 상대경로
    - 절대경로
2. 특정 경로에 존재하는 파일의 목록을 확인해서 read_xxx함수를 이용
    - os 라이브러리를 이용하는 방법 
    - glob 라이브러리를 이용하는 방법
3. 파일을 목록이 정상적으로 불러와진다면 반복문을 이용하여 여러개의 파일을 로드 

In [None]:
import os
from glob import glob
import pandas as pd

In [None]:
# os 라이브러리 이용해서 특정 경로에 존재하는 파일의 목록 
# dir -> 현재 경로의 파일의 목록을 불러오는 명령어 
# list -> 1차원 리스트 데이터
# csv 폴더에 존재하는 파일의 목록 확인 
os.listdir("../../csv/")

In [None]:
# csv 폴더 안에 2017 폴더의 파일 목록 확인 
os.listdir("../../csv/2017")

In [None]:
pd.read_csv('../../csv/2017/201701_expense_list.csv').info()

In [None]:
pd.read_csv("../../csv/2017/201702_expense_list.csv").info()

In [None]:
file_list = os.listdir("../../csv/2018")

for file in file_list:
    # file변수 -> file_list 원소(파일명)가 하나씩 대입
    print("../../csv/2018/"+file)


In [20]:
# 함수화 하기위해 코드 수정 
# 경로를 변수에 저장(함수에서 매개변수)
file_path = "../../csv/2017/"

file_list = os.listdir(file_path)

# file_list를 오름차순 정렬 변경
file_list.sort()

# 비어있는 데이터프레임을 생성 -> 
    # 반복문에서 로드가 되는 데이터프레임을 빈 데이터프레임 누적 결합
result = pd.DataFrame()

for file in file_list:
    # print(file_path + file)
    df = pd.read_csv(file_path + file)
    # df를 어딘가에(result) 결합(단순 행 결합) -> concat()
    result = pd.concat( [result, df] )
    # 반복 횟수 1회 
        # file -> 201701.csv
        # df -> 201701 데이터프레임
        # result -> 빈 데이터프레임임
        # result ->  빈 데이터프레임과 201701데이터프레임이 행 결합 -> result에 대입
        # result -> 201701 데이터프레임
    # 반복 횟수 2회
        # file -> 201702.csv
        # df -> 201701데이터가 삭제되고 201702데이터프레임 대입
        # result -> 201701데이터가 존재하는 데이터프레임
        # 201701데이터와 201702데이터를 단순한 행 결합 -> result에 대입 
        # result -> 201701과 201702 데이터를 가진 데이터프레임


In [21]:
result.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-26 13:10,동해일식 (중구 무교동),기본소득과 장애인복지 논의간담회,장애인복지정책팀장 외 2명,카드,76000


In [22]:
result.tail(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
7285,14292506,2017년 12월 사업소_은평병원_원무과 업무추진비 내역,http://opengov.seoul.go.kr/public/14292506,사업소,은평병원,원무과,,,2017,12,,,,원무과,2017-12-06 18:00,스타벅스(응암동 96-1),전문의 및 전공의 격려 다과회,병원장 외 11명,카드,440000


In [25]:
# 2018폴더의 파일들을 모두 결합하여 하나의 데이터프레임 생성
# result_2018

file_path = "../../csv/2018/"
file_list = os.listdir(file_path)
file_list.sort()

# 빈 데이터프레임 생성
result_2018 = pd.DataFrame()

for file in file_list:
    df = pd.read_csv(file_path + file)
    result_2018 = pd.concat( [result_2018, df] )


In [None]:
result_2018.info()

In [27]:
# 2019년도 2020년도까지 데이프레임 결합

file_path = "../../csv/2019/"
file_list = os.listdir(file_path)
file_list.sort()
result_2019 = pd.DataFrame()

for file in file_list:
    # 2019폴더에는 파일의 확장자가 json -> read_json()
    df = pd.read_json(file_path + file)
    result_2019 = pd.concat( [result_2019, df] )

In [None]:
result_2019.info()

In [29]:
file_path = "../../csv/2020/"
file_list = os.listdir(file_path)
file_list.sort()

result_2020 = pd.DataFrame()

for file in file_list:
    # file들이 xlsx 확장자
    df = pd.read_excel(file_path + file)
    result_2020 = pd.concat( [result_2020, df] )

In [None]:
result_2020.info()

In [31]:
file_path = "../../csv/2021/"
file_list = os.listdir(file_path)
file_list.sort()

In [None]:
file_list

In [None]:
file_tail = 'csv'
new_list = []

for file in file_list:
    # 조건 -> 확장자가 file_tail과 같다면
    # 확장자를 확인하는 방법 -> 문자열에서 마지막의 문자와 같은가?
    # file의 타입 -> str
    if file.endswith(file_tail):
        # new_list에 file 추가 
        new_list.append(file)

new_list 

In [None]:
file_tail = 'json'
new_list = []

for file in file_list:
    # 조건 -> 확장자가 file_tail과 같다면
    # 확장자를 확인하는 방법 -> 문자열에서 마지막의 문자와 같은가?
    # file의 타입 -> str
    # split()함수를 이용하여 확장자를 확인 
    # "a.csv" -> split('.') -> ['a', 'csv']
    # "a.b.csv" -> split('.') -> ['a', 'b', 'csv']
    # 두 경우 모두 확장자는 리스트의 마지막에 존재
    # 인덱스는 -1 사용
    if file.split('.')[-1] == file_tail:
        # new_list에 file 추가 
        new_list.append(file)

new_list 

In [36]:
# file_list에서 특정 확장자를 제외하고 제거(remove())

file_tail = 'xlsx'
# file_list 복사본 생성
file_list2 = file_list.copy()

for file in file_list:
    if not(file.endswith(file_tail)):
        file_list2.remove(file)


file_list2


['202101_expense_list.xlsx',
 '202102_expense_list.xlsx',
 '202103_expense_list.xlsx',
 '202104_expense_list.xlsx',
 '202105_expense_list.xlsx',
 '202106_expense_list.xlsx',
 '202107_expense_list.xlsx',
 '202108_expense_list.xlsx',
 '202109_expense_list.xlsx',
 '202110_expense_list.xlsx',
 '202111_expense_list.xlsx',
 '202112_expense_list.xlsx']

In [41]:
# 특정 경로에 존재하는 데이터 파일을 로드하여 하나의 데이터프레임으로 생성해주는 함수
# 매개변수 3개 -> 파일의 경로, 파일의 확장자, 인코딩엔진( 기본값 : utf-8 )
def dir_data_df(file_path, file_tail, engine = 'utf-8'):
        # file_path에 마지막이 '/'없으면 문제가 발생 -> '/' 추가
        # file_path = file_path + '/'
        file_path += '/'
        # file_path를 기준으로 파일의 목록을 생성 
        file_list = os.listdir(file_path)
        file_list.sort()
        result = pd.DataFrame()
        # file_tail에 맞는 파일들을 추출 
        new_list = []
        for file in file_list:
                if file.endswith(file_tail):
                        new_list.append(file)
        # new_list를 이용하여 파일을 로드하고 result 누적 행 결합
        for file2 in new_list:
                # file_tail에 따라서 read_함수를 변경 
                if file_tail == 'csv':
                        df = pd.read_csv(file_path + file2, encoding=engine)
                elif file_tail == 'json':
                        df = pd.read_json(file_path + file2, encoding=engine)
                elif file_tail == 'xml':
                        df = pd.read_xml(file_path + file2, encoding=engine)
                # elif (file_tail == 'xlsx') | (file_tail == 'xls'):
                elif file_tail in ['xlsx', 'xls']:
                        df = pd.read_excel(file_path + file2)
                else:
                        print("파일의 확장자 입력이 잘못되었습니다.(csv, json, xml, excel 사용가능)")
                        return ""
                # result에 누적 행 결합
                result = pd.concat( [result, df] )
        # result에서 인덱스를 초기화하고 기존의 인덱스는 제거 
        result.reset_index(drop=True, inplace=True)
        return result


In [42]:
dir_data_df("../../csv/2017", 'csv').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70132 entries, 0 to 70131
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nid                70132 non-null  int64  
 1   title              70132 non-null  object 
 2   url                70132 non-null  object 
 3   dept_nm_lvl_1      70132 non-null  object 
 4   dept_nm_lvl_2      70074 non-null  object 
 5   dept_nm_lvl_3      61262 non-null  object 
 6   dept_nm_lvl_4      17939 non-null  object 
 7   dept_nm_lvl_5      3474 non-null   object 
 8   exec_yr            70132 non-null  int64  
 9   exec_month         70132 non-null  int64  
 10  expense_budget     3108 non-null   float64
 11  expense_execution  2805 non-null   float64
 12  category           1259 non-null   object 
 13  dept_nm_full       70053 non-null  object 
 14  exec_dt            70132 non-null  object 
 15  exec_loc           69360 non-null  object 
 16  exec_purpose       701