# 데이터 입/출력
- 데이터 분석을 위해서는 데이터베이스에 저장된 데이터를 python으로 불러들이고, 분석 결과를 저장하는 것이 일반적임. 결과를 저장하기 위해서는 pickle (or joblib) module이 사용됨 (PKL 확장자)


- Reading
    - fin = open('file.txt', 'r') 
    - 'r': read
    
- Writing
    - fout = open('file.txt', 'w')
    - 'w': write. 파일이 존재할 시에 덮어씀. 존재하지 않는 경우에는 파일을 생성

- default location
    - import os
    - print(os.getcwd())

- 파일 위치를 absolute path로 지정하지 않을 시 (e.g. "C:/myFolder/"), relative path로 인식하여 cwd에 파일을 생성함


- open('eggs.txt'), open(r'C:/ham.bin', 'wb')

In [1]:
import os

fout = open('output.txt', 'w')
line1 = "A line to write.\n"
fout.write(line1)
fout.close()


os.path.exists('filePath') # checks whether a file or directory exists
os.path.isdir('filePath') # checks whether "filePath" is a directory
os.path.isfile('filePath') # checks whether "filePath" is a file

False

In [33]:
# ex 1) 배열 크기가 10000인 난수를 생성해서 result.pkl 파일로 저장

path = 'C:/test/' 
import numpy as np
_rnd = np.random.rand(10000)
import pickle

if not os.path.exists(path): # C:/test/ 폴더가 존재하지 않으면
    os.mkdir(path) # 해당 위치에 해당 폴더를 생성

# 파일 저장
pkl_file = open(path + 'data.pkl', 'wb') # open file for writing
pickle.dump(_rnd, pkl_file) # write _rnd to pkl_file
pkl_file.close() # close file after use

# 파일 불러오기
pkl_file = open(path + 'data.pkl', 'rb') # open file for reading
_rnd_load = pickle.load(pkl_file) # PKL 파일에 저장한 후 불러들인 변수
print(_rnd[:5]) # 기존에 저장되어 있던 변수
print(_rnd_load[:5]) # PKL 파일에 저장한 후 불러들인 변수

# 두 변수가 같은지를 확인
print(_rnd[2] == _rnd_load[2])
print(np.equal(_rnd, _rnd_load)) # element-wise equality check
print(np.array_equal(_rnd, _rnd_load)) # 모든 element에 대해 element-wise equality가 성립하면 True

[0.64622513 0.95964182 0.11674137 0.96145788 0.72584291]
[0.64622513 0.95964182 0.11674137 0.96145788 0.72584291]
True
[ True  True  True ...  True  True  True]
True


In [35]:
# ex 2)
pkl_file = open(path + 'data.pkl', 'wb')
pickle.dump(_rnd, pkl_file)
pickle.dump(_rnd * 100, pkl_file) # 같은 pkl_file에 이어서 저장됨
pkl_file.close()

pkl_file = open(path + 'data.pkl', 'rb')

x = pickle.load(pkl_file) # x == _rnd
y = pickle.load(pkl_file) # y == _rnd * 100
pkl_file.close()

- pickle은 FIFO (First In, First Out) 형태로 저장됨.
- pkl file을 직접 불러들여 확인하기 전까지는 파일 내부에 어떤 정보가 저장되어 있는지 알 수 없음. 
- 이를 피하기 위해서 위의 ex 2)에서처럼 같은 pkl 파일에 나눠서 저장하는 대신에, dictionary를 사용해서 한 번에 저장하는 방법이 있음.

In [37]:
# ex 3)
pkl_file = open(path + 'data.pkl', 'wb')
pickle.dump({'x' : x, 'y' : y}, pkl_file)
pkl_file.close()

pkl_file = open(path + 'data.pkl', 'rb')
data = pickle.load(pkl_file)
pkl_file.close()

for key in data.keys():
    print (key, data[key][:5])


x [0.64622513 0.95964182 0.11674137 0.96145788 0.72584291]
y [64.62251264 95.96418189 11.67413672 96.14578753 72.58429097]


## Pandas library의 DataFrame
- 금융에서 일반적으로 사용하는 파일 형식으로는 txt, csv, xls/xlsx, sql 등이 있으며, 대부분 column (identifier)과 row (observation)으로 이루어져 있음. 
    - row: 관측 시점
    - column: 기업명, 주가, ...


- 이를 다루기 위해 일반적으로 pandas library를 사용
    - 행과 열로 구분된 데이터베이스 (tabular database)를 다룰 수 있는 DataFrame이라는 틀을 제공
    

- Pandas library를 통해 csv, xlsx 형식의 파일을 저장 가능

In [None]:
# ex 4)
import pandas as pd
path = 'C:/test/'
pd.read_csv(path + 'data.txt') # read txt
pd.read_csv(path + 'data.csv') # read csv
pd.read_excel(path + 'data.xlsx') # read xlsx
pd.read_sas(path + 'data.sas7bdat') # read SAS data
pd.read_stata(path + 'data.dta') # read STATA data

pd.to_csv(path + 'data.csv') # write csv
pd.to_excel(path + 'data.xlsx') # write xlsx

In [122]:
# dataframe 생성
import pandas as pd
df = pd.DataFrame([10, 20, 30, 40], columns=['numbers'], index=['a', 'b', 'c', 'd'])
display(df)

Unnamed: 0,numbers
a,10
b,20
c,30
d,40


In [123]:
index = df.index
val = df.values

print(index) # index
print(type(index))
print(index.values) # index values as a list

print('\n')
print(val)
print(val.shape)

Index(['a', 'b', 'c', 'd'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
['a' 'b' 'c' 'd']


[[10]
 [20]
 [30]
 [40]]
(4, 1)


In [124]:
# column 추가
df['alphabet'] = ['a', 'b', 'c', 'd']
display(df)

Unnamed: 0,numbers,alphabet
a,10,a
b,20,b
c,30,c
d,40,d


In [125]:
# index 값 변경
df.index = ['1996-01-01', '2000-01-01', '2010-01-01','2020-01-01']
display(df)

Unnamed: 0,numbers,alphabet
1996-01-01,10,a
2000-01-01,20,b
2010-01-01,30,c
2020-01-01,40,d


### loc과 iloc
- .loc을 통해 label based로 DataFrame의 값에 접근 가능
- .iloc을 통해 integer position based로 DataFrame 값에 접근 가능

In [126]:
numbers1 = df['numbers'] # 'numbers' 변수의 값을 numbers1 변수에 할당
numbers2 = df.loc[:, 'numbers'] # 다른 문법, 같은 결과

print(numbers1)
print('\n')
print(numbers2)

print('\n')
print(np.array_equal(numbers1, numbers2))

1996-01-01    10
2000-01-01    20
2010-01-01    30
2020-01-01    40
Name: numbers, dtype: int64


1996-01-01    10
2000-01-01    20
2010-01-01    30
2020-01-01    40
Name: numbers, dtype: int64


True


In [144]:
print(df[['numbers', 'alphabet']])
print('\n')
print(df['numbers'][:2])

print('\n')
print(df['numbers'][3])

print('\n')
print(df.loc[:, 'numbers'][:2])

            numbers alphabet
1996-01-01       70        a
2000-01-01       20        b
2010-01-01       30       cc
2020-01-01       40      100


1996-01-01    70
2000-01-01    20
Name: numbers, dtype: int64


40


1996-01-01    70
2000-01-01    20
Name: numbers, dtype: int64


In [127]:
# ex) loc
display(df)
numbers1 = df

df.loc['1996-01-01', 'numbers'] = 70 #  'numbers' column의 '1996-01-01' row의 값을 30으로 바꿈
display(df)

df.loc['2010-01-01', 'alphabet'] *= 2 # 'alphabet' column의 '2010-01-01' row의 값에 *2 연산을 함
display(df)

import copy
df_ = copy.deepcopy(df)
df_.loc[0, 'numbers'] = 130 # index가 0인 row, 'numbers' column에 대해 새로운 entry가 생성됨 (주의: 0번째 row를 바꾸는 것이 아님)
display('df_:', df_)

Unnamed: 0,numbers,alphabet
1996-01-01,10,a
2000-01-01,20,b
2010-01-01,30,c
2020-01-01,40,d


Unnamed: 0,numbers,alphabet
1996-01-01,70,a
2000-01-01,20,b
2010-01-01,30,c
2020-01-01,40,d


Unnamed: 0,numbers,alphabet
1996-01-01,70,a
2000-01-01,20,b
2010-01-01,30,cc
2020-01-01,40,d


'df_:'

Unnamed: 0,numbers,alphabet
1996-01-01,70.0,a
2000-01-01,20.0,b
2010-01-01,30.0,cc
2020-01-01,40.0,d
0,130.0,


In [129]:
# ex) iloc
df.iloc[3, 1] = 100 # 3번째 row, 1번째 column의 값을 100으로 바꿈
display(df)

# 3번째 row는 '2020-01-01', 1번째 column은 'alphabet' column에 해당

Unnamed: 0,numbers,alphabet
1996-01-01,70,a
2000-01-01,20,b
2010-01-01,30,cc
2020-01-01,40,100


In [119]:
# pd.to_datetime()을 통해 date format의 string object를 DateTimeIndex object로 변환 가능
str2datetime = pd.to_datetime(df.index)
print(str2datetime)
print(type(str2datetime))

DatetimeIndex(['1996-01-01', '2000-01-01', '2010-01-01', '2020-01-01',
               '1970-01-01'],
              dtype='datetime64[ns]', freq=None)
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
