### Save Data to Local Storage

지난번에 FinanaceDataReadre 를 통해 주가데이터를 수집했었는데

이는 매 실행시마다 KRX, Naver 등 웹페이지로부터 데이터를 요청해 받아오는것이다.

따라서 오프라인 상태에서는 사용 할 수가 없고

지나치게 많은 요청을 할 경우 서버로부터 일시적으로 IP차단을 당하기도 한다

이를 방지하기 위해 데이터를 내 컴퓨터에 저장하는 법을 알아보자


### Directory 생성 및 확인

In [4]:
import os
os.listdir() # 현재 디렉토리의 파일들 출력

['.git', '.idea', '.ipynb_checkpoints', 'README.md', 'Untitled.ipynb']

In [7]:
dirname = "findata"
if dirname not in os.listdir(): # 해당 이름의 디렉토리가 없을 경우
    os.mkdir(dirname) # 디렉토리 생성

In [9]:
os.listdir() # 새로운 디렉토리가 생성된것을 확인 할 수 있다

['.git',
 '.idea',
 '.ipynb_checkpoints',
 'findata',
 'README.md',
 'Untitled.ipynb']

In [12]:
os.listdir("findata/") # 현재폴더 기준으로 findata디렉토리 안의 파일도 확인가능

[]

### Python 객체의 저장

점프 투 파이썬에서 파일 입출력을 통해 간단한 메모장을 만드는것을 해보았을 것이다.

하지만 그것만으로는 부족하다.

pickle 을 사용하면 단순 문자열이 아닌 파이썬의 객체 자체를 저장할 수 있다.

In [13]:
sample_list = [1,2,3,4,5,6]

def sample_func():
    print("Sample Function")

#### 저장시에는 mode=wb, 로드시에는 mode=rb 를 사용
(wb 사용시 동일 이름이 존재하는 경우 덮어씌어지는것에 주의한다)

In [16]:
import pickle
# Save
with open("findata/sample_list.pickle", mode="wb") as f:
    pickle.dump(sample_list, f)
    
with open("findata/sample_func.pickle", mode="wb") as f:
    pickle.dump(sample_func, f)

In [17]:
os.listdir("findata/")

['sample_func.pickle', 'sample_list.pickle']

In [18]:
# Load
with open('findata/sample_list.pickle', mode='rb') as f:
    loaded_list = pickle.load(f)
    
with open('findata/sample_func.pickle', mode='rb') as f:
    loaded_func = pickle.load(f)

In [20]:
loaded_list

[1, 2, 3, 4, 5, 6]

In [22]:
loaded_func()

Sample Function


### 데이터를 읽고 직접 저장해보자!

In [1]:
import FinanceDataReader as fdr

In [78]:
samsung = fdr.DataReader("005930", "2000")

In [79]:
samsung.head() # 2000년 부터 현재까지의 데이터

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-01-04,6000,6110,5660,6110,1483967,0.148496
2000-01-05,5800,6060,5520,5580,1493604,-0.086743
2000-01-06,5750,5780,5580,5620,1087810,0.007168
2000-01-07,5560,5670,5360,5540,806195,-0.014235
2000-01-10,5600,5770,5580,5770,937615,0.041516


In [36]:
# 저장!
with open("findata/samsung.pickle", mode="wb") as f:
    pickle.dump(samsung, f)

In [37]:
with open("findata/samsung.pickle", mode="rb") as f:
    loaded_samsung = pickle.load(f)

In [80]:
loaded_samsung.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-01-04,6000,6110,5660,6110,1483967,0.148496
2000-01-05,5800,6060,5520,5580,1493604,-0.086743
2000-01-06,5750,5780,5580,5620,1087810,0.007168
2000-01-07,5560,5670,5360,5540,806195,-0.014235
2000-01-10,5600,5770,5580,5770,937615,0.041516


### Csv 파일로 저장

대용량의 파일 저장시에는 pickle 모듈을 사용하는 것이 좋으나 

간단한 데이터는 csv파일로 저장 할 수있다

csv 파일의 장점은 사용법이 쉽고 엑셀로도 그 파일을 열람 할 수 있다

In [44]:
loaded_samsung.to_csv("findata/samsung.csv")  # Save

In [50]:
import pandas as pd
loaded_csv = pd.read_csv("findata/samsung.csv")

In [81]:
loaded_csv.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Change
0,2000-01-04,6000,6110,5660,6110,1483967,0.148496
1,2000-01-05,5800,6060,5520,5580,1493604,-0.086743
2,2000-01-06,5750,5780,5580,5620,1087810,0.007168
3,2000-01-07,5560,5670,5360,5540,806195,-0.014235
4,2000-01-10,5600,5770,5580,5770,937615,0.041516


## 하지만 단점은 pickle 에 비해 느리고 용량을 많이 차지한다

**저장시 속도, 용량비교**

In [57]:
def fun1():
    with open("findata/samsung.pickle", mode="wb") as f:
        pickle.dump(samsung, f)
%time fun1() # pickle

Wall time: 1.99 ms


In [61]:
print(os.path.getsize("findata/samsung.pickle") / 1024 , "kb")

278.3837890625 kb


In [55]:
%time loaded_samsung.to_csv("findata/samsung.csv") # csv

Wall time: 56.8 ms


In [62]:
print(os.path.getsize("findata/samsung.csv") / 1024 , "kb")

311.3916015625 kb


**로드시 속도비교**

In [63]:
def fun2():
    with open("findata/samsung.pickle", mode="rb") as f:
        loaded_samsung = pickle.load(f)
%time fun2() # pickle

Wall time: 12 ms


In [64]:
%time loaded_csv = pd.read_csv("findata/samsung.csv")

Wall time: 24.9 ms


## 메모리 최적화!

데이터를 저장시에는 속도, 메모리, 스토리지 용량 등 많은 것을 고려하여 한다

특히 대용량의 데이터를 다룰때에는 메모리에 더욱 많은 주의가 필요하다

In [66]:
a = 1
a

1

위처럼 a 에 1을 대입하면 그 1은 어디에 저장되는 것인가? 바로 RAM 에 저장된다

램의 크기는 유한하므로 우리가 이렇게 데이터를 생성 또는 불러올때마다 RAM의 자원을 사용하게된다

따라서 메모리를 효율적으로 관리하지 않을경우 데이터를 불러오지 못하는 일이 생길 수 있다

In [68]:
import sys
print(sys.getsizeof(a) , "bytes") # 현재 어느정도의 메모리를 사용하는지 알려줌

28 bytes


In [69]:
samsung.info() # Pandas 객체는 info 메소드를 통해 확인가능

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5071 entries, 2000-01-04 to 2020-07-16
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Open    5071 non-null   int64  
 1   High    5071 non-null   int64  
 2   Low     5071 non-null   int64  
 3   Close   5071 non-null   int64  
 4   Volume  5071 non-null   int64  
 5   Change  5071 non-null   float64
dtypes: float64(1), int64(5)
memory usage: 277.3 KB


### 메모리를 아끼기 위해서는 어떻해야할까?

#### 1. 필요한 데이터만 저장한다

samsung 객체는 Open, High, Low, Close, Volume, Change 6개의 열을 가지고 있는데

Change 열은 굳이 필요하지도 않고 필요하다면 나중에 만들어 낼 수 있으므로 제외한다

In [82]:
samsung.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-01-04,6000,6110,5660,6110,1483967,0.148496
2000-01-05,5800,6060,5520,5580,1493604,-0.086743
2000-01-06,5750,5780,5580,5620,1087810,0.007168
2000-01-07,5560,5670,5360,5540,806195,-0.014235
2000-01-10,5600,5770,5580,5770,937615,0.041516


In [83]:
samsung_diet = samsung[["Open", "High", "Low", "Close", "Volume"]]
samsung_diet.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000-01-04,6000,6110,5660,6110,1483967
2000-01-05,5800,6060,5520,5580,1493604
2000-01-06,5750,5780,5580,5620,1087810
2000-01-07,5560,5670,5360,5540,806195
2000-01-10,5600,5770,5580,5770,937615


In [84]:
samsung_diet.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5071 entries, 2000-01-04 to 2020-07-16
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Open    5071 non-null   int64
 1   High    5071 non-null   int64
 2   Low     5071 non-null   int64
 3   Close   5071 non-null   int64
 4   Volume  5071 non-null   int64
dtypes: int64(5)
memory usage: 237.7 KB


**약 40kb 메모리를 절약하였다!**

#### 2. Dtype 설정

컴퓨터에서 데이터를 저장할때에는 타입을 지정해서 저장을 하게된다

문자열은 char, 참거짓은 bool, 정수는 int, 실수는 float 등 지정된 데이터 타입이 있고 각 타입마다 차지하는 용량도 다르다!

In [85]:
samsung_diet.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5071 entries, 2000-01-04 to 2020-07-16
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Open    5071 non-null   int64
 1   High    5071 non-null   int64
 2   Low     5071 non-null   int64
 3   Close   5071 non-null   int64
 4   Volume  5071 non-null   int64
dtypes: int64(5)
memory usage: 237.7 KB


**위의 Samsung_diet 의 정보를 확인해보면 Open, High, Low, Close, Volume 모두 int64 의 데이터 타입을 사용하는것을 알 수 있다**

각종 데이터 타입의 종류와 용량은 [여기](https://numpy.org/doc/stable/user/basics.types.html)를 클릭 하면 볼 수 있다

**int64** 의 경우 8byte의 메모리를 차지하며 정수 -9,223,372,036,854,775,808 부터 9,223,372,036,854,775,807 까지 표현 할 수 있다 

900경 단위까지 표현이 가능하다!!

하지만 잘 생각해보면 주식가격이 경 단위까지 갈 수가 있는가? 거래량은 더더욱 경 단위까지 갈리가 없다

따라서 **int64** 는 너무 과한 데이터 타입이다

이보다 한 단계 낮은 **int32** 는 4byte의 메모리를 차지하며 정수 -2,147,483,648 to 2,147,483,647 즉 20억 단위 까지 표현가능하다

주식가격이나 거래량이 20억단위로도 갈리 없으므로 **int32** 로도 충분하다!

만약 불안하다면 주가나 거래량이 음수가 될 리 없으므로 **uint32** (4byte의 메모리를 차지하며 정수 0 to 4,294,967,295 까지 표현)를 사용하자

In [89]:
samsung_diet = samsung_diet.astype("uint32")

In [90]:
samsung_diet.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5071 entries, 2000-01-04 to 2020-07-16
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Open    5071 non-null   uint32
 1   High    5071 non-null   uint32
 2   Low     5071 non-null   uint32
 3   Close   5071 non-null   uint32
 4   Volume  5071 non-null   uint32
dtypes: uint32(5)
memory usage: 138.7 KB


**237.7 KB** -> **138.7 KB** 매우 많은 메모리를 줄였다!!

In [91]:
with open("findata/samsung_diet.pickle", mode="wb") as f:
    pickle.dump(samsung_diet, f)

In [93]:
print(os.path.getsize("findata/samsung.pickle") / 1024 , "kb")
print(os.path.getsize("findata/samsung_diet.pickle") / 1024 , "kb")

278.3837890625 kb
139.572265625 kb


**로컬에 저장시에도 파일용량이 278 kb-> 139 kb 줄어든 것을 확인할 수 있다!!**

이렇게 간단한 과정하나로 용량을 절반가량으로 줄 일 수 있는것이다!

### 부록

In [94]:
daily_stick = {}

In [95]:
samsung = fdr.DataReader("005930")
naver= fdr.DataReader("035420")

In [96]:
daily_stick["005930"] = samsung
daily_stick["035420"] = naver

In [99]:
daily_stick["005930"].head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1996-08-31,1107,1107,1060,1066,52170,
1996-09-02,1067,1076,1050,1067,117670,0.000938
1996-09-03,1063,1063,1043,1057,76960,-0.009372
1996-09-04,1076,1090,1062,1069,124480,0.011353
1996-09-05,1067,1069,1046,1047,118400,-0.02058


In [100]:
daily_stick["035420"].head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2002-10-29,7366,7366,7366,7366,20549,
2002-10-30,8244,8244,8152,8245,853638,0.119332
2002-10-31,8369,8570,7641,7835,1320880,-0.049727
2002-11-01,8036,8287,7065,7349,750761,-0.062029
2002-11-04,7281,7331,6804,6981,692165,-0.050075


### 과제

지난 과제를 참조하여 현재 상장되어 있는 모든 코스피, 코스닥 종목들의 데이터를 수집하고

메모리 최적화를 통해 최대한 용량을 줄이고

부록을 참조하여 key=종목코드, value=주가데이터 형식의 딕셔너리를 만든 후

pickle 을 사용하여 그 딕셔너리를 로컬에 저장하여라!

(주의: github는 코드를 공유하는 곳이지 대용량의 데이터를 공유하는 곳이 아니므로 데이터를 push 하지는 말 것)