## 데이터 입출력

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import joblib
import numpy as np
import pandas as pd

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
# [참고] Jupyter Notebook 파일이 있는 폴더로 현재 작업 경로를 자동 설정합니다.
os.getcwd()

In [None]:
# 데이터 파일이 있는 폴더로 작업 경로를 변경합니다.(절대 경로)
os.chdir(path = '여기에 data 폴더를 지정하세요.')
os.getcwd()

In [None]:
# 현재 작업 경로의 부모 폴더로 작업 경로를 변경합니다.(상대 경로)
os.chdir(path = '..')
os.getcwd()

In [None]:
# 현재 작업 경로의 자식 폴더로 작업 경로를 변경합니다.(상대 경로)
# [참고] './'를 생략할 수 있습니다.
os.chdir(path = './code')
os.getcwd()

In [None]:
# 현재 작업 경로의 형제 폴더로 작업 경로를 변경합니다.(상대 경로)
# [주의] '..'을 생략할 수 없습니다.
os.chdir(path = '../data')
os.getcwd()

### 작업 경로에 있는 폴더명, 파일명 확인

In [None]:
# 현재 작업 경로에 임시 폴더를 생성합니다.
os.mkdir(path = 'temp')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
# [참고] Windows에서 왼쪽 코드를 실행하면 오름차순 정렬한 결과를 반환합니다.
os.listdir()

In [None]:
# [참고] MacOS은 오름차순 정렬하지 않으므로 sorted()를 추가 실행합니다.
sorted(os.listdir())

In [None]:
# 현재 작업 경로에 있는 빈 폴더를 삭제합니다.
os.rmdir(path = 'temp')

### [참고] 특정 문자열을 포함하는 파일명 선택

In [None]:
# for 반복문으로 'xlsx'을 포함하는 파일명을 리스트로 반환합니다.
for file in os.listdir():
    if 'xlsx' in file:
        print(file)

In [None]:
# 리스트 컴프리헨션으로 'xlsx'을 포함하는 파일명을 리스트로 반환합니다.
[file for file in os.listdir() if 'xlsx' in file]

### xlsx 파일 읽기

In [None]:
# xlsx 파일명을 재사용할 수 있도록 변수에 할당합니다.
fileName = 'APT_Price_Seoul_2020_2022.xlsx'

In [None]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
pd.read_excel(io = fileName)

### xlsx 파일 입출력

In [None]:
%%time

# xlsx 파일의 모든 시트를 읽고 데이터프레임이 값인 딕셔너리를 반환합니다.
dfs = pd.read_excel(io = fileName, 
                    sheet_name = None, 
                    usecols = range(1, 12), 
                    skiprows = 3, 
                    thousands = ',')

In [None]:
# dfs를 출력합니다.
# [참고] dfs는 키가 시트명이고 값이 데이터프레임인 딕셔너리입니다.
dfs

In [None]:
# 최종 결과를 저장할 빈 데이터프레임을 생성합니다.
df1 = pd.DataFrame()

# 반복문으로 dfs의 값(데이터프레임)을 행(세로) 방향으로 결합합니다.
for key in dfs.keys():
    df1 = pd.concat(objs = [df1, dfs[key]], ignore_index = True)

In [None]:
# df1의 정보를 확인합니다.
df1.info()

In [None]:
# df1을 xlsx 파일로 저장합니다.
# [참고] index 매개변수에 False를 지정하면 인덱스를 생략합니다.
%time df1.to_excel(excel_writer = 'test.xlsx', index = False)

### [참고] 데이터프레임 행/열 최대 출력 옵션 변경

### 데이터프레임 미리보기

In [None]:
# df1의 처음 5행을 출력합니다.
# [참고] n 매개변수에 지정한 정수만큼 출력합니다.(기본값: 5)
df1.head()

In [None]:
# df1의 처음 10행을 출력합니다.
df1.head(n = 10)

In [None]:
# df1의 마지막 5행을 출력합니다.
df1.tail()

In [None]:
# df1에서 무작위로 1행을 선택합니다.
# [참고] n 매개변수에 지정한 정수만큼 출력합니다.(기본값: None)
# [참고] random_state 매개변수에 같은 정수를 지정하면 항상 같은 결과를 반환합니다.
df1.sample()

### csv 파일 읽기

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 files에 할당합니다.
files = os.listdir()

In [None]:
# 'csv'와 'Price'를 함께 포함하는 파일명을 fileNames에 할당합니다.
fileNames = [file for file in files if 'csv' in file and 'Price' in file]
fileNames

In [None]:
# fileNames의 첫 번째 원소(csv 파일명)를 읽고 데이터프레임을 생성합니다.
# [주의] csv 파일의 문자 인코딩 방식이 'ASCII' 또는 'UTF-8'이 아니면 에러를 반환합니다.
pd.read_csv(filepath_or_buffer = fileNames[0])

### csv 파일의 문자 인코딩 방식 확인

In [None]:
# csv 파일을 bytes로 읽고 text에 할당합니다.
# [참고] with 문에서 나오면서 close()를 호출합니다.
with open(file = fileNames[0], mode = 'rb') as file:
    text = file.read()

In [None]:
# text의 일부를 출력합니다.
# [참고] text는 ASCII로 인코딩된 문자열이므로 사람이 읽기 어렵습니다.
# [참고] 따옴표 왼쪽에 b가 보이면 bytes 자료형입니다.
text[:100]

In [None]:
# text의 일부에 사용된 문자 인코딩 방식과 신뢰도를 확인합니다.
# [주의] 지정한 문자열에 따라 결과가 달라질 수 있습니다.
chardet.detect(text[:100])

### csv 파일 입출력

In [None]:
%%time

# 최종 결과를 저장할 빈 데이터프레임을 생성합니다.
df2 = pd.DataFrame()

# 반복문으로 csv 파일을 읽고 데이터프레임을 행(세로) 방향으로 결합합니다.
for fileName in fileNames:
    df = pd.read_csv(filepath_or_buffer = fileName, 
                     encoding = 'CP949', 
                     parse_dates = ['거래일'])
    df2 = pd.concat(objs = [df2, df], ignore_index = True)

In [None]:
# df2의 정보를 확인합니다.
df2.info()

In [None]:
# df2를 csv 파일로 저장합니다.
%time df2.to_csv(path_or_buf = 'APT_Price_Seoul_2020_2022.csv', \
                 encoding = 'UTF-8', \
                 index = False)

### 압축 파일 입출력

In [None]:
# df2를 확장자가 z인 압축 파일로 저장합니다.
%time joblib.dump(value = df2, filename = 'test.z')

In [None]:
# z 파일을 읽고 df3에 할당합니다.
%time df3 = joblib.load(filename = 'test.z')

In [None]:
# df3의 정보를 확인합니다.
df3.info()

### [참고] 여러 개의 파이썬 객체를 압축 파일로 저장

In [None]:
# 여러 개의 파이썬 객체를 리스트로 묶어서 압축 파일로 저장합니다.
joblib.dump(value = [df1, df2, df3], filename = 'testAll.z')

In [None]:
# z 파일을 읽으면 파이썬 객체를 원소로 갖는 리스트를 반환합니다.
joblib.load(filename = 'testAll.z')

In [None]:
# z 파일을 읽은 결과(리스트)를 여러 변수명으로 언패킹합니다.
df4, df5, df6 = joblib.load(filename = 'testAll.z')

### [참고] 실습 파일 삭제

In [None]:
# 현재 작업 경로에서 'test'를 포함하는 파일명을 fileNames에 할당합니다.
fileNames = [file for file in os.listdir() if 'test' in file]
fileNames

In [None]:
# 반복문으로 해당 파일을 모두 삭제합니다.
for fileName in fileNames:
    os.remove(path = fileName)

## End of Document