## 데이터 입출력

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 데이터 파일이 있는 폴더로 작업 경로를 변경합니다.(절대 경로)
os.chdir(path = '여기에 data 폴더를 지정하세요.')
os.getcwd()

In [None]:
# 현재 작업 경로의 부모 폴더로 작업 경로를 변경합니다.(상대 경로)
os.chdir(path = '..')
os.getcwd()

In [None]:
# 현재 작업 경로의 자식 폴더로 작업 경로를 변경합니다.(상대 경로)
# [참고] './'를 생략할 수 있습니다.
os.chdir(path = './code')
os.getcwd()

In [None]:
# 현재 작업 경로의 형제 폴더로 작업 경로를 변경합니다.(상대 경로)
# [주의] '..'은 생략할 수 없습니다.
os.chdir(path = '../data')
os.getcwd()

### 작업 경로에 있는 폴더명, 파일명 확인

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# [참고] MacOS 사용자는 아래 코드를 대신 실행합니다.
sorted(os.listdir())

In [None]:
# 반복문으로 'xlsx'을 포함하는 파일명을 출력합니다.
for file in os.listdir():
    if 'xlsx' in file:
        print(file)

In [None]:
# 'xlsx'을 포함하는 파일명을 리스트로 반환합니다.
[file for file in os.listdir() if 'xlsx' in file]

### xlsx 파일 읽기

In [None]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx')

### xlsx 파일 읽을 때 옵션 추가

In [None]:
# xlsx 파일을 읽을 때 필요한 옵션을 추가합니다.
pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx', 
              sheet_name = '2022년', 
              usecols = range(1, 12), 
              skiprows = 3, 
              thousands = ',')

### xlsx 파일 입출력

In [None]:
# xlsx 파일을 읽고 df1에 할당합니다.
# [참고] 다음 행을 연결하려면 백슬래시를 추가해야 합니다.
# [주의] 백슬래시 뒤에 공백이 있으면 에러를 반환합니다.
%time df1 = pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx', \
                          sheet_name = '2020~2022년')

In [None]:
# df1의 정보를 확인합니다.
df1.info()

In [None]:
# df1을 xlsx 파일로 저장합니다.
%time df1.to_excel(excel_writer = 'test.xlsx', index = False)

### [참고] 여러 시트를 데이터프레임으로 결합

In [None]:
# 최종 결과를 저장할 빈 데이터프레임을 생성합니다.
dfAll = pd.DataFrame()

In [None]:
# 반복문으로 각 시트를 읽고 행(세로) 방향으로 결합합니다.
for i in range(3):
    df = pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx', 
                       sheet_name = i, 
                       usecols = range(1, 12), 
                       skiprows = 3)
    dfAll = pd.concat(objs = [dfAll, df], ignore_index = True)

### [참고] 데이터프레임 행/열 최대 출력 옵션 변경

In [None]:
# 최대 행 출력 옵션을 확인합니다.
pd.get_option('display.max_rows')

In [None]:
# 전체 행을 출력하도록 최대 행 출력 옵션을 변경합니다.
pd.set_option('display.max_rows', None)

In [None]:
# 최대 행 출력 옵션을 초기화합니다.
# [참고] 전체 옵션을 초기화하려면 'display.max_rows' 대신 'all'을 지정합니다.
pd.reset_option('display.max_rows')

### 데이터프레임 미리보기

In [None]:
# df1의 처음 5행을 출력합니다.
df1.head()

In [None]:
# df1의 처음 10행을 출력합니다.
df1.head(n = 10)

In [None]:
# df1의 마지막 5행을 출력합니다.
df1.tail()

In [None]:
# df1에서 무작위로 1행을 선택합니다.
df1.sample()

### csv 파일 읽기

In [None]:
# 'csv'를 포함하는 파일명을 리스트로 반환합니다.
[file for file in os.listdir() if 'csv' in file]

In [None]:
# csv 파일명을 재사용할 수 있도록 변수에 할당합니다.
fileName = 'APT_Price_Seoul_2020_2022.csv'

In [None]:
# csv 파일을 읽고 데이터프레임을 생성합니다.
pd.read_csv(filepath_or_buffer = fileName)

### csv 파일의 문자 인코딩 방식 확인

In [None]:
# csv 파일을 bytes로 읽고 text에 할당합니다.
with open(file = fileName, mode = 'rb') as file:
    text = file.read()

In [None]:
# text의 일부를 확인합니다.
# text는 ASCII로 인코딩된 문자열이므로 사람이 읽을 수 없습니다.
# [참고] 따옴표 왼쪽에 b가 보이면 bytes입니다.
text[:100]

In [None]:
# text의 일부로 문자 인코딩 방식을 확인합니다.
# [주의] 지정한 문자열에 따라 결과가 달라질 수 있습니다.
%time chardet.detect(text[:100])

In [None]:
# text의 전체로 문자 인코딩 방식을 확인합니다.
# [참고] text의 글자 개수에 따라 함수 실행 소요 시간이 달라집니다.
%time chardet.detect(text)

### csv 파일 읽을 때 옵션 추가

In [None]:
# csv 파일을 읽을 때 필요한 옵션을 추가합니다.
pd.read_csv(filepath_or_buffer = fileName, 
            encoding = 'CP949', 
            sep = ',', 
            parse_dates = ['거래일'],
            thousands = ',')

### csv 파일 입출력

In [None]:
# csv 파일을 읽고 df2에 할당합니다.
# [참고] 데이터 전처리 실습을 위해 거래일과 거래금액의 자료형을 변경하지 않습니다.
%time df2 = pd.read_csv(filepath_or_buffer = fileName, \
                        encoding = 'CP949')

In [None]:
# df2의 정보를 확인합니다.
df2.info()

In [None]:
# df2를 csv 파일로 저장합니다.
%time df2.to_csv(path_or_buf = 'test.csv', index = False)

### 압축 파일 입출력

In [None]:
# df2를 확장자가 z인 압축 파일로 저장합니다.
%time joblib.dump(value = df2, filename = 'test.z')

In [None]:
# z 파일을 읽고 df3에 할당합니다.
%time df3 = joblib.load(filename = 'test.z')

In [None]:
# df3의 정보를 확인합니다.
df3.info()

### [참고] 실습 파일 삭제

In [None]:
# 현재 작업 경로에서 'test'를 포함하는 파일명으로 리스트를 생성합니다.
files = [file for file in os.listdir() if 'test' in file]
files

In [None]:
# 반복문으로 해당 파일을 모두 삭제합니다.
for file in files:
    os.remove(path = file)

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

## End of Document