# 데이터 입출력

### 윈도우에서의 이스케이프(\)
- 이스케이프(\)는 기능이 있는 메타문자의 기능을 해제하는 메타문자
- 따옴표는 여러 글자를 문자열로 생성하는 기능이 있음
    - 역슬래시 2번 사용 \\
    - 일반 슬래시 사용 /
    - raw string : 문자열 안 이스케이프의 기능을 일괄 해제
        - r'C:\Users'

In [None]:
import os, chardet
import numpy as np
import pandas as pd

### OS

In [None]:
# 현재 작업경로
os.getcwd()

# 작업경로 변경
os.chdir('/Users/taehyunan/Desktop/Repo/SeSAC/Study/sesac_python_study_repo/project/data')
os.getcwd()

In [None]:
# 상위 폴더로 이동
os.chdir('..')
os.getcwd()

In [None]:
# 현재 경로에서 code 폴더로 이동
os.chdir('./code')
os.getcwd()

In [None]:
# 상위 폴더에서 data 폴더로 이동
os.chdir('../../data')
os.getcwd()
sorted(os.listdir())

In [None]:
# 탐색기 또는 파인더에서 복사한 경로
PATH = '/Users/taehyunan/Desktop/Repo/SeSAC/Study/sesac_python_study_repo/project/data'
os.chdir(PATH)
os.getcwd()

In [None]:
sorted(os.listdir())

### 특정 문자열을 포함하는 파일명 선택

In [None]:
files = []
for file in sorted(os.listdir()):
    if 'xlsx' in file:
        files.append(file)
files

In [None]:
[file for file in sorted(os.listdir()) if 'xlsx' in file]

In [None]:
dfs = pd.read_excel('APT_Price_Seoul_Split_2020~2024.xlsx',
                    sheet_name=None,
                    usecols=range(1,16),
                    skiprows=3,
                    thousands=','
                    )

In [None]:
dfs

### 딕셔너리 -> 데이터프레임

- ignore_index=True : 기존 데이터프레임의 인덱스를 무시하고 초기화

In [None]:
df1 = pd.concat(dfs, ignore_index=True)
df1

In [None]:
# df1 확인
df1.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 231904 entries, 0 to 231903
# Data columns (total 15 columns):
#  #   Column  Non-Null Count   Dtype         
# ---  ------  --------------   -----         
#  0   거래금액    231904 non-null  int64         
#  1   지역코드    231904 non-null  int64         
#  2   아파트     231904 non-null  object        
#  3   시도명     231904 non-null  object        
#  4   시군구     231904 non-null  object        
#  5   법정동     231904 non-null  object        
#  6   지번      231904 non-null  object        
#  7   건축년도    231904 non-null  int64         
#  8   년       231904 non-null  int64         
#  9   월       231904 non-null  int64         
#  10  일       231904 non-null  int64         
#  11  등기일자    79535 non-null   datetime64[ns]
#  12  매도자     56193 non-null   object        
#  13  전용면적    231904 non-null  float64       
#  14  층       231904 non-null  int64         
# dtypes: datetime64[ns](1), float64(1), int64(7), object(6)
# memory usage: 26.5+ MB

In [None]:
# 엑셀 파일로 저장
# index=False : 인덱스 생략
df1.to_excel('test.xlsx', index=False)

In [None]:
df1.head()
df1.tail()
df1.sample(5, random_state=1234)

### CSV 파일 불러오기

In [None]:
files = [file for file in sorted(os.listdir()) if 'Split' in file and 'csv' in file]
files

### 인코딩 방식 확인
- mode 매개변수에 읽기 모드를 설정
    - 'r'은 문자열(str)로 읽기, 'rb'는 바이츠(bytes)로 읽기
    - bytes는 아스키로 인코딩된 문자열
- bytes 타입은 따옴표 왼쪽에 b가 있음

In [None]:
with open(file = files[0], mode='rb') as file:
    text = file.read()

# 전체 텍스트를 조회하면 시간이 오래걸리니 처음 일부 글자만 확인후 'EUC-KR'로 나오면 'CP949'로 지정
# confidence : 신뢰도
chardet.detect(text[:100])
# {'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}
chardet.detect(text)
# {'encoding': 'CP949', 'confidence': 0.99, 'language': 'Korean'}

In [None]:
pd.read_csv(files[0], encoding='CP949')

### read_csv 함수의 주요 옵션

### CSV 파일 입출력

In [None]:
files

In [None]:
df2 =pd.DataFrame()

for file in files:
    df = pd.read_csv(file,
                    encoding='CP949',
                    parse_dates=['등기일자'],
                    thousands=','
                    )
    df2 = pd.concat([df2, df], ignore_index=True)

In [None]:
df2.info()

In [None]:
df2.head()
df2.tail()

In [None]:
df2.to_csv('test.csv', index=False, sep=',', encoding='UTF-8')

In [None]:
df3 = pd.read_csv('test.csv')
# DtypeWarning: Columns (11,12) have mixed types

In [None]:
df3 = pd.read_csv('test.csv', low_memory=False)

In [None]:
df3.info()

### pickle 파일 입출력
- 속도가 빠름
- 자료형 유지
- 여러 객체를 하나의 피클 파일로 저장 가능
- pandas 버전이 다르면 피클 파일 오류

In [None]:
df2.to_pickle('test.pkl')

In [None]:
df4 = pd.read_pickle('test.pkl')

In [None]:
df4.info()

### 여러 개의 객체를 하나의 피클 파일로 저장

In [None]:
pd.to_pickle([df1, df2, df3], filepath_or_buffer='test_all.pkl')

In [None]:
# 여러 객체를 하나의 pickle 파일로 저장했다면 읽을 때 해당 개수만큼 변수에 할당해야 편리함
df1_1, df2_1, df3_1 = pd.read_pickle('test_all.pkl')

### 다른 방법들

In [None]:
objs = pd.read_pickle('test_all.pkl')
len(objs) # 3

In [None]:
# 저장하려는 파이썬 객체의 변수명을 키로, 변수를 값으로 하여 딕셔너리를 만들고 딕셔너리를 pikcle 파일로 저장
objs = {
    'df1': df1,
    'df2': df2,
    'df3': df3
}

pd.to_pickle(objs, filepath_or_buffer='test_all.pkl')

dct = pd.read_pickle('test_all.pkl')

# globals() : 전역 변수 목록을 보여주는 기능이 있는데 update() 는 딕셔너리에서 원소를 추가하는 역할을 함
globals().update(dct)

### 특정 문자열을 포함하는 파일 삭제

In [None]:
sorted(os.listdir())

In [None]:
# test 가 포함된 파일 files 리스트에 추가
files = [file for file in sorted(os.listdir()) if 'test' in file]
files

In [None]:
# files 리스트의 파일들 삭제
for file in files:
    os.remove(file)

In [None]:
sorted(os.listdir())