## 데이터 입출력

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os, chardet
import numpy as np
import pandas as pd
import joblib

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

### xlsx 파일 입출력

In [None]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
df = pd.read_excel(io = 'KBO_Hitters_2021.xlsx', 
                   sheet_name = 'Hitters', 
                   skiprows = 4)

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# 데이터프레임을 xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'test.xlsx', index = None)

### csv 파일 인코딩 방식 확인

In [None]:
# csv 파일명을 재사용할 수 있도록 변수에 할당합니다.
file = 'KBO_Hitters_2021.csv'

In [None]:
# csv 파일을 바이너리 모드로 읽습니다.
raw = open(file = file, mode = 'rb').read()

In [None]:
# csv 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw)

### csv 파일 입출력

In [None]:
# csv 파일을 읽고 데이터프레임을 생성합니다.
df = pd.read_csv(filepath_or_buffer = file, encoding = 'EUC-KR')

In [None]:
# df의 인덱스를 정수 1부터 시작하도록 변경합니다.
df.index = range(1, df.shape[0]+1)

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

In [None]:
# 데이터프레임을 csv 파일로 저장합니다.
df.to_csv(path_or_buf = 'test.csv', index = None, encoding = 'UTF-8')

### 압축 파일 입출력

In [None]:
# df를 확장자가 'z'인 압축 파일로 저장합니다.
joblib.dump(value = df, filename = 'test.z')

In [None]:
# 압축 파일을 호출하고 데이터프레임에 할당합니다.
df = joblib.load(filename = 'test.z')

### 데이터프레임 인덱싱 및 슬라이싱: iloc 인덱서

In [None]:
# 대괄호 안에 정수 인덱스를 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.iloc[0]

In [None]:
# 대괄호 안에 스칼라 대신 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.iloc[[0]]

In [None]:
# 대괄호 안에 슬라이스를 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 인덱스를 포함하지 않습니다.
df.iloc[0:10]

In [None]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열의 정수 인덱스를 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.iloc[0:10, :]

In [None]:
# 행 인덱스가 0~9인 행과 열 인덱스가 0~11인 열을 데이터프레임으로 반환합니다.
df.iloc[0:10, 0:12]

In [None]:
# 대괄호 안에 열의 인덱스를 원하는 순서대로 지정합니다.
df.iloc[:, [1, 0, 5]]

### 데이터프레임 인덱싱 및 슬라이싱: loc 인덱서

In [None]:
# 대괄호 안에 행이름을 스칼라로 지정하면 해당 행을 시리즈로 반환합니다.
df.loc[1]

In [None]:
# 대괄호 안에 스칼라 대신 리스트로 지정하면 해당 행을 데이터프레임으로 반환합니다.
df.loc[[1]]

In [None]:
# 대괄호 안에 슬라이스를 지정하면 해당 행을 데이터프레임으로 반환합니다.
# [주의] 마지막 행이름을 포함합니다.
df.loc[1:10]

In [None]:
# 대괄호 안에 콤마를 추가하고 콤마 뒤에 선택할 열이름을 지정합니다.
# [참고] 전체 열을 선택하려면 콤마 오른쪽에 빈 콜론을 추가합니다.
df.loc[1:10, :]

In [None]:
# 행이름이 1~10인 행과 열이름이 선수명~도루인 열을 데이터프레임으로 반환합니다.
df.loc[1:10, '선수명':'도루']

In [None]:
# 대괄호 안에 열이름을 원하는 순서대로 지정합니다.
df.loc[:, ['팀명', '선수명', '안타']]

## End of Document