## 특정 경로에 있는 파일의 목록을 로드 
1. 일반적으로 방법 -> 상대경로, 절대경로를 이용해서 파일을 하나씩 로드 
2. 특정 경로에 있는 파일의 목록(list)을 기준으로 데이터 로드 
    - os 라이브러리 이용하는 방법
    - glob 라이브러리 이용하는 방법
3. 파일의 목록을 기준으로 데이터를 for문을 이용해서 로드

In [None]:
import os
import glob
import pandas as pd

In [None]:
## csv 폴더 안에 있는 2017 폴더에 있는 데이터들을 로드

# os 라이브러리를 이용하여 파일의 목록을 불러온다. 
# 목록(list) + 파일의 목록을 보는 명령어(dir)
os.listdir("../../csv/2017")

In [None]:
# 파일 목록을 로드할 경로를 변수에 저장 
file_path = "../../csv/2017/"
file_list = os.listdir(file_path)
# file_list

In [None]:
pd.read_csv(file_path + file_list[0])

In [None]:
result = pd.DataFrame()
result

In [None]:
for file in file_list:
    df = pd.read_csv(file_path + file)
    # result와 df를 유니언 결합하여 result 담아준다. 
    result = pd.concat([result, df], axis=0, 
                       ignore_index=True)

In [None]:
result.info()

In [None]:
## csv 폴더 안에 있는 2019폴더에 파일들을 모두 로드하여 
## 하나의 데이터프레임으로 결합
result_2019 = pd.DataFrame()
file_path = "../../csv/2019/"
file_list = os.listdir(file_path)
file_list

In [None]:
# json 확장자 파일을 로드 
# read_json()
for file in file_list:
    df = pd.read_json(file_path + file)
    result_2019 = pd.concat([result_2019, df], 
                            axis=0, ignore_index=True)


In [None]:
result_2019.info()

In [None]:
## 2021폴더를 확인
file_path = "../../csv/2021/"
file_list = os.listdir(file_path)
file_list

In [None]:
file_list[0].split('.')[-1] == 'csv'

In [None]:
file_list[0].endswith('csv')

In [None]:
file_name, file_end = os.path.splitext(file_list[0])

In [None]:
file_end

In [None]:
result_2021 = pd.DataFrame()

# 확장자를 선택해서 해당하는 확장자만 result_2021에 결합
for file in file_list:
    # excel 파일인 경우에만 result_2021에 결합
    if file.split(".")[-1] in ['xlsx', 'xls']:
        df = pd.read_excel(file_path + file)
        result_2021 = pd.concat([result_2021, df], 
                                axis=0, ignore_index=True)


In [None]:
result_2021.info()

In [None]:
## 2021 폴더에 있는 파일들을 각각 다른 변수에 저장 
file_path = "../../csv/2021/"
file_list = os.listdir(file_path)

for file in file_list:
    # 사용할 변수의 이름 
    name, end = os.path.splitext(file)
    # end에 있는 .을 제거 
    end = end[1:]
    # print(end[1:])
    # print(end.lstrip('.'))
    # print(end.replace('.', ''))
    if end == 'csv':
        df = pd.read_csv(file_path + file)
    elif end == 'json':
        df = pd.read_json(file_path + file)
    elif end == 'xml':
        df = pd.read_xml(file_path + file)
    elif end in ['xlsx', 'xls']:
        df = pd.read_excel(file_path + file)
    else:
        continue
    globals()[f"{name}_{end}"] = df.copy()

In [None]:
# lxml error 발생시 
!pip install lxml

In [None]:
globals()['202101_expense_list_csv']

In [None]:
## 지정된 경로에 파일들을 하나의 데이터프레임으로 
# 결합하여 되돌려주는 함수 생성
# 매개변수? -> 경로, 확장자명
def data_load(_path, _end = 'csv'):
    # _path : 파일의 경로
    # _end : 파일의 확장자명

    # 유저가 입력한 경로를 이용하여 파일의 리스트를 변수에 저장
    file_list = os.listdir(_path)
    # 비어있는 데이터프레임을 생성 
    result = pd.DataFrame()
    _path = _path + '/'
    for file in file_list:
        # file -> 파일명
        # 파일명의 확장자가 유저가 입력한 확장자와 같다면
        if file.endswith(_end):
            if _end == 'csv':
                df = pd.read_csv(_path + file)
            elif _end == 'json':
                df = pd.read_json(_path + file)
            elif _end == 'xml':
                df = pd.read_xml(_path + file)
            elif _end in ['xlsx', 'xls']:
                df = pd.read_excel(_path + file)
            else:
                return '지원하는 확장자가 아닙니다.'
            # df를 result에 유니언 결합 
            result = pd.concat([result, df], 
                               axis=0, ignore_index=True)
    return result    

In [None]:
data_load(r'C:\Users\moons\Documents\GitHub\ubion_m_5\csv\2018')

In [None]:
data_load('../../csv/2021/', 'json')

In [None]:
## os 라이브러리 이용하여 파일을 목록 
print(
    os.listdir('../../csv/2021/')
)
## glob 라이브러리 이용하여 파일의 목록
print(
    glob.glob("../../csv/2021/*.csv")
)

In [None]:
file_list = glob.glob("../../csv/num_3/*.csv")
file_list

In [17]:
for file in file_list:
    # print(file)
    # df = pd.read_csv(file)
    ## 경로와 파일을 나눠준다. 
    folder, name = os.path.split(file)
    # print(folder, "  " ,name)
    head, tail = os.path.splitext(name)
    print(head)
    globals()[f"{head}"] = pd.read_csv(file)
    ## 첫번째 반복 : head -> campaign_master, tail -> .csv
    ##              f"{head}" -> "campaign_master", globals()['campaign_master']
    ##              campaign_master = pd.read_csv("../../csv/num_3/campaign_master.csv")
    ## 두번째 반복 : head -> class_master, tail -> .csv
    ##              f"{head}" -> "class_master", globals()['class_master']
    ##              class_master = pd.read_csv('../../csv/num_3/class_master.csv')
# df

campaign_master
class_master
customer_master
use_log


In [None]:
use_log

In [None]:
campaign_master

In [21]:
## 특정 경로에 있는 파일의 목록들을 각각 파일의 이름으로 전역변수를 생성하여 저장하는 함수 생성
## 매개변수 : 경로
def data_load2(_path):
    # 입력받은 경로를 기준으로 파일의 목록을 모두 로드한다. 
    file_list = glob.glob(_path + "/*.*")
    # 반복 실행 file_list를 이용하여
    for file in file_list:
        # 경로와 파일명을 나눠준다. 
        folder, name = os.path.split(file)
        # 파일명에서 이름과 확장자를 나눠준다. 
        head, tail = os.path.splitext(name)
        # tail의 형태는? ".확장자"
        if tail == '.csv':
            df = pd.read_csv(file)
        elif tail == '.json':
            df = pd.read_json(file)
        elif tail == '.xml':
            df = pd.read_xml(file)
        elif tail in ['.xlsx', '.xls']:
            df = pd.read_excel(file)
        else:
            print('지원하지 않는 확장자 파일')
            continue
        globals()[f"{head}"] = df.copy()
        print(f"{head} 전역변수 저장 완료")
    return "파일의 목록 저장 완료"

In [22]:
data_load2("../../csv/num_3")

campaign_master 전역변수 저장 완료
class_master 전역변수 저장 완료
customer_master 전역변수 저장 완료
use_log 전역변수 저장 완료


'파일의 목록 저장 완료'

In [24]:
## 파일을 데이터프레임으로 로드하는 함수를 하나 생성 
## 매개변수 2개 : 상대경로 | 절대경로, enconding = 'utf-8'
def read_df(_path, _encoding='utf-8'):
    # 입력받은 데이터에서 확장자를 분리해준다. 
    head, tail = os.path.splitext(_path)
    print(tail)
    if tail == '.csv':
        df = pd.read_csv(_path, encoding=_encoding)
    elif tail == '.json':
        df = pd.read_json(_path, encoding=_encoding)
    elif tail == '.xml':
        df = pd.read_xml(_path, encoding=_encoding)
    elif tail in ['.xlsx', '.xls']:
        df = pd.read_excel(_path)
    else:
        df = pd.DataFrame()
    return df

In [25]:
read_df("../../csv/2014.csv", 'cp949')

.csv


Unnamed: 0,구분,사고(건),사망(명),부상(명)
0,2014년1월,169,7,347
1,2014년2월,145,3,268
2,2014년3월,206,12,358
3,2014년4월,182,4,360
4,2014년5월,218,17,474
5,2014년6월,233,13,457
6,2014년7월,229,14,431
7,2014년8월,222,9,447
8,2014년9월,225,15,430
9,2014년10월,210,14,392
