# 데이터 전처리와 스케일 조정

- 데이터를 모델링하기 전에는 반드시 스케일링 과정을 거쳐야 함
- 스케일링을 통해 다차원의 값들을 비교 분석하기 쉽게 만들어 줌
- 자료의 오버플로우(overflow)나 언더플로우(underflow)를 방지
- 독립 변수의 공분산 행렬의 조건수(condition number)를 감소시켜 최적화 과정에서의 안정성 및 수렴 속도를 향상


- StandardScaler
  - 각 특성의 평균을 0, 분산을 1로 변경하여 특성의 스케일을 맞춤
  - 최솟값과 최댓값의 크기를 제한하지 않음
- RobustScaler
  - 평균과 분산 대신에 중간값과 사분위 값을 사용함
  - 중간값은 정렬시 중간에 있는 값을 의미하고, 사분위값은 1/4, 3/4에 위치한 값을 의미함
  - 전체 데이터와 아주 동떨어진 데이터 포인트(이상치)에 영향을 받지 않음
- MinMaxScaler
  - 모든 특성이 0과 1 사이에 위치하도록 데이터를 변경함
- Normalizer
  - 위와 다른 스케일 조정법으로 특성 벡터의 유클리디안 길이가 1이 되도록 조정함
  - 즉 길이가 1인 원 또는 구로 투영하는 것이고, 각도만이 중요할 때 적용함
  - l1, l2, max 옵션을 제공하며 유클리디안 거리인 l2가 기본값임


# 주가 데이터를 정규화하기

- 사이킷런(scikit-learn)
  - 파이썬에서 머신러닝 분석을 위해 사용할 수 있는 라이브러리
  - 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크, API를 제공
- sklearn 패키지에 있는 MinMaxScaler를 활용하여 전체 학습 데이터를 Normalize 해주기
  - MinMaxScaler를 해주면 전체 데이터는 0, 1사이의 값을 갖게 됨


In [8]:
import numpy as np
import pandas as pd
import yfinance as yfin
from pandas_datareader import data

In [2]:
df_price = yfin.download("NVDA", start="2023-01-01", end="2024-05-28")

  df_price = yfin.download("NVDA", start="2023-01-01", end="2024-05-28")
[*********************100%***********************]  1 of 1 completed


In [3]:
df_price.reset_index(inplace=True)
df_price

Price,Date,Close,High,Low,Open,Volume
Ticker,Unnamed: 1_level_1,NVDA,NVDA,NVDA,NVDA,NVDA
0,2023-01-03,14.302285,14.982681,14.083480,14.837809,401277000
1,2023-01-04,14.735901,14.839809,14.228353,14.554063,431324000
2,2023-01-05,14.252333,14.551067,14.135436,14.478132,389168000
3,2023-01-06,14.845804,14.996670,14.021537,14.461146,405044000
4,2023-01-09,15.614120,16.041739,15.127552,15.270425,504231000
...,...,...,...,...,...,...
346,2024-05-20,94.742287,95.162118,93.402824,93.712698,318764000
347,2024-05-21,95.348045,95.362040,93.142922,93.561754,328946000
348,2024-05-22,94.912224,95.981798,93.211904,95.421024,548648000
349,2024-05-23,103.757706,106.277699,101.479605,101.987407,835065000


In [5]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scale_cols = ["Open", "High", "Low", "Close", "Volume"]
df_scaled = scaler.fit_transform(df_price[scale_cols])
df_scaled

array([[4.18764892e-03, 4.69750491e-03, 6.96475487e-04, 5.41935283e-04,
        1.50901165e-01],
       [1.03303217e-03, 3.14254179e-03, 2.32540378e-03, 5.24623648e-03,
        1.73229289e-01],
       [1.88845250e-04, 0.00000000e+00, 1.28066299e-03, 0.00000000e+00,
        1.41902888e-01],
       ...,
       [9.00091362e-01, 8.86257570e-01, 8.90404917e-01, 8.75080022e-01,
        2.60413524e-01],
       [9.73094736e-01, 9.98313793e-01, 9.83365743e-01, 9.71044749e-01,
        4.73251879e-01],
       [1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.71869403e-01]])

In [6]:
df_scaled = pd.DataFrame(df_scaled)
df_scaled.columns = scale_cols
df_scaled

Unnamed: 0,Open,High,Low,Close,Volume
0,0.004188,0.004698,0.000696,0.000542,0.150901
1,0.001033,0.003143,0.002325,0.005246,0.173229
2,0.000189,0.000000,0.001281,0.000000,0.141903
3,0.000000,0.004850,0.000000,0.006439,0.153700
4,0.008997,0.016224,0.012436,0.014774,0.227407
...,...,...,...,...,...
346,0.881099,0.877337,0.892552,0.873236,0.089585
347,0.879420,0.879512,0.889629,0.879808,0.097152
348,0.900091,0.886258,0.890405,0.875080,0.260414
349,0.973095,0.998314,0.983366,0.971045,0.473252


# 학습 데이터셋과 테스트 데이터셋 생성하기

- TEST_SIZE=30
  - 학습은 과거부터 30일 이전의 데이터를 학습하게 되고, TEST를 위해서 이후 30일의 데이터로 모델이 주가를 예측하도록 한 다음, 실제 데이터와 오차가 얼마나 있는지 확인해보기


In [7]:
TEST_SIZE = 30
train = df_scaled[:-TEST_SIZE]
test = df_scaled[-TEST_SIZE:]

- dataset을 만들어 주는 함수
- 정해진 window_size에 기반하여 5일 기간의 데이터셋을 묶어 주는 역할을 하는 함수
- 순차적으로 5일 동안의 데이터셋을 묶고, 이에 맞는 label(예측 데이터)와 함께 return해 줌


- window_size
  - 얼마 동안(기간)의 주가 데이터에 기반하여 다음날 종가를 예측할 것인가를 정하는 parameter
  - 과거 5일을 기반으로 내일 데이터를 예측한다라고 가정했을 때, window_size=5


In [9]:
def make_dataset(data, label, window_size=5):
    feature_list = []
    label_list = []
    for i in range(len(data) - window_size):
        feature_list.append(np.array(data.iloc[i : i + window_size]))
        label_list.append(np.array(label.iloc[i + window_size]))
    return np.array(feature_list), np.array(label_list)

- feature와 label 정의하기


In [10]:
feature_cols = ["Open", "High", "Low", "Volume"]
label_cols = ["Close"]

train_feature = train[feature_cols]
train_label = train[label_cols]

In [11]:
# train dataset
train_feature, train_label = make_dataset(train_feature, train_label, 5)

In [12]:
# train, validation set 생성
from sklearn.model_selection import train_test_split

In [13]:
x_train, x_valid, y_train, y_valid = train_test_split(
    train_feature, train_label, test_size=0.2
)
x_train.shape, x_valid.shape

((252, 5, 4), (64, 5, 4))

In [14]:
# test_dataset
test_feature = test[feature_cols]
test_label = test[label_cols]

# test dataset (실제 예측해 볼 데이터)
test_feature, test_label = make_dataset(test_feature, test_label, 5)
test_feature.shape, test_label.shape

((25, 5, 4), (25, 1))