## 데이터 입출력

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 현재 작업 경로를 다시 확인합니다.
os.getcwd()

In [None]:
# 상위 폴더로 작업 경로를 변경합니다.(상대 경로)
os.chdir(path = '..')

In [None]:
# 현재 작업 경로를 다시 확인합니다.
os.getcwd()

In [None]:
# 데이터 파일이 있는 폴더로 작업 경로를 변경합니다.(상대 경로)
os.chdir(path = './data')

In [None]:
# 현재 작업 경로를 다시 확인합니다.
os.getcwd()

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

### [참고] 조건에 맞는 파일명 출력

In [None]:
# 반복문으로 'xlsx'을 포함하는 파일명을 출력합니다.
for file in os.listdir():
    if 'xlsx' in file:
        print(file)

In [None]:
# 'xlsx'을 포함하는 파일명을 리스트로 반환합니다.
[file for file in os.listdir() if 'xlsx' in file]

### xlsx 파일 읽기

In [None]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx')

### xlsx 파일 읽을 때 옵션 추가

In [None]:
# xlsx 파일을 읽을 때 필요한 옵션을 추가합니다.
pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx', 
              sheet_name = '2022년', 
              usecols = range(1, 12), 
              skiprows = 3, 
              thousands = ',')

### xlsx 파일 입출력

In [None]:
# xlsx 파일을 읽고 df1에 할당합니다.
%time df1 = pd.read_excel(io = 'APT_Price_Seoul_2020_2022.xlsx', \
                          sheet_name = '2020~2022년')

In [None]:
# df1의 정보를 확인합니다.
df1.info()

In [None]:
# df1을 xlsx 파일로 저장합니다.
%time df1.to_excel(excel_writer = 'test.xlsx', index = None)

### [참고] 데이터프레임 행/열 최대 출력 옵션 변경

In [None]:
# 최대 행 출력 옵션을 확인합니다.
pd.get_option('display.max_rows')

In [None]:
# 전체 행을 출력하도록 최대 행 출력 옵션을 변경합니다.
pd.set_option('display.max_rows', None)

In [None]:
# 최대 행 출력 옵션을 초기화합니다.
pd.reset_option('display.max_rows')

### 데이터프레임 미리보기

In [None]:
# df1의 처음 5행을 출력합니다.
df1.head()

In [None]:
# df1의 처음 10행을 출력합니다.
df1.head(n = 10)

In [None]:
# df1의 마지막 5행을 출력합니다.
df1.tail()

In [None]:
# df1에서 무작위로 1행을 선택합니다.
df1.sample()

### csv 파일 읽기

In [None]:
# 'csv'를 포함하는 파일명을 리스트로 반환합니다.
[file for file in os.listdir() if 'csv' in file]

In [None]:
# csv 파일명을 재사용할 수 있도록 변수에 할당합니다.
fileName = 'APT_Price_Seoul_2020_2022.csv'

### csv 파일의 문자 인코딩 방식 확인

In [None]:
# csv 파일을 바이너리 읽기 모드로 실행한 결과를 text에 할당합니다.
text = open(file = fileName, mode = 'rb').read()

In [None]:
# text의 일부를 확인합니다.
text[:100]

In [None]:
# text의 문자 인코딩 방식을 확인합니다.
chardet.detect(text)

In [None]:
# text를 사람이 읽을 수 있는 문자열로 변환하고 일부를 확인합니다.
text.decode(encoding = 'CP949')[:100]

### csv 파일 읽을 때 옵션 추가

In [None]:
# csv 파일의 문자 인코딩 방식을 지정합니다.
df2 = pd.read_csv(filepath_or_buffer = fileName, encoding = 'CP949')

In [None]:
# df2의 정보를 확인합니다.
df2.info()

In [None]:
# df2의 처음 5행을 출력합니다.
df2.head()

In [None]:
# 날짜/시간 자료형으로 읽을 열이름과 천 단위 구분자를 추가 지정합니다.
df2 = pd.read_csv(filepath_or_buffer = fileName, 
                  encoding = 'CP949', 
                  sep = ',', 
                  parse_dates = ['거래일'],
                  thousands = ',')

In [None]:
# df2의 열별 자료형을 확인합니다.
df2.dtypes

### csv 파일 입출력

In [None]:
# csv 파일을 읽고 df2에 할당합니다.
%time df2 = pd.read_csv(filepath_or_buffer = fileName, \
                        encoding = 'CP949')

In [None]:
# df2의 정보를 확인합니다.
df2.info()

In [None]:
# df2를 csv 파일로 저장합니다.
%time df2.to_csv(path_or_buf = 'test.csv', index = None)

### 압축 파일 입출력

In [None]:
# df2를 확장자가 z인 압축 파일로 저장합니다.
%time joblib.dump(value = df2, filename = 'APT_Price_Seoul_2020_2022.z')

In [None]:
# z 파일을 호출하고 df3에 할당합니다.
%time df3 = joblib.load(filename = 'APT_Price_Seoul_2020_2022.z')

In [None]:
# df3의 정보를 확인합니다.
df3.info()

### [참고] 실습 파일 삭제

In [None]:
# 현재 작업 경로에서 'test'를 포함하는 파일명으로 리스트를 생성합니다.
files = [file for file in os.listdir() if 'test' in file]
files

In [None]:
# 반복문으로 해당 파일을 모두 삭제합니다.
for file in files:
    os.remove(path = file)

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

## End of Document