# 삼성전자 주가 예측(Samsung Electronics Stock Analysis)

## 문제 상황  

증권사 A는 주가의 상승, 하락에 대한 연구를 진행하고 있다. 시가, 고가, 저가, 종가 등 주가에 관련된 데이터와 거래량 같은 추가 정보를 활용하여 주가 상승, 하락에 대해서 예측해보고자 한다.

## 문제 해결 프로세스  

1. 문제정의

- 주가 상승, 하락에 대한 예측 적중률 저조 

2. 기대효과

- 주가 상승, 하락에 대한 예측 적중률 증가

3. 해결방안

- 주가 데이터 활용 모델링을 통한 상승, 하락 예측  

4. 성과측정

- 추후 주가 예측에 대한 적중률

### 크롤링(crawling)

In [10]:
import pandas as pd 
import time
import requests 
from bs4 import BeautifulSoup
from tqdm import tqdm 

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; intel OS X 10_13_6)'}


total = []
for i in tqdm(range(1,672)):
    
    url = "https://finance.naver.com/item/sise_day.naver?code=005930&page={}".format(i)
    url = requests.get(url, headers = headers)
    
    html = BeautifulSoup(url.text) 
    
    table = html.find('table', class_ = 'type2')
    table = pd.read_html(str(table))[0]
    table = table.dropna()
    
    total.append(table)
    time.sleep(1) 

100%|████████████████████████████████████████████████████████████████████████████████| 671/671 [11:54<00:00,  1.06s/it]


크롤링 : 인터넷에서 데이터를 수집하는 방법

- import time : 시간
- import requests : 요청
- from bs4 import BeautifulSoup : python으로 HTML 다루는 기능
- from tqdm import tqdm : for문의 진행상황을 확인할 수 있는 라이브러리
- BeautifulSoup(url.text) : Text를 진짜 HTML로 변환해주는 기능
- type2 : 네이버금융 "삼성전자"의 type
- time.sleep(1) : 숫자로 지정한 초 만큼 시간이 지연

In [11]:
len(total)

671

네이버금융에 나와있는 데이터를 수집한 결과, 총 671개의 페이지가 있는 것을 확인할 수 있다

In [15]:
samsung = pd.concat(total, ignore_index = True)
samsung

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,2023.03.21,60200.0,0.0,60500.0,60700.0,60200.0,3218819.0
1,2023.03.20,60200.0,1100.0,61100.0,61200.0,60200.0,9618009.0
2,2023.03.17,61300.0,1400.0,60800.0,61300.0,60600.0,14090110.0
3,2023.03.16,59900.0,100.0,59200.0,60200.0,59100.0,10611939.0
4,2023.03.15,59800.0,800.0,60000.0,60300.0,59600.0,10482149.0
...,...,...,...,...,...,...,...
6705,1996.06.29,68500.0,400.0,68100.0,69100.0,67100.0,96710.0
6706,1996.06.28,68100.0,1200.0,67300.0,68500.0,67200.0,138430.0
6707,1996.06.27,66900.0,800.0,67500.0,67700.0,66700.0,155450.0
6708,1996.06.26,67700.0,200.0,67600.0,67900.0,66000.0,136630.0


concat을 통해 모든 페이지를 연결시킨다

In [17]:
samsung = samsung[::-1]
samsung.to_excel('samsung.xlsx')
samsung

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,2023.03.21,60200.0,0.0,60500.0,60700.0,60200.0,3218819.0
1,2023.03.20,60200.0,1100.0,61100.0,61200.0,60200.0,9618009.0
2,2023.03.17,61300.0,1400.0,60800.0,61300.0,60600.0,14090110.0
3,2023.03.16,59900.0,100.0,59200.0,60200.0,59100.0,10611939.0
4,2023.03.15,59800.0,800.0,60000.0,60300.0,59600.0,10482149.0
...,...,...,...,...,...,...,...
6705,1996.06.29,68500.0,400.0,68100.0,69100.0,67100.0,96710.0
6706,1996.06.28,68100.0,1200.0,67300.0,68500.0,67200.0,138430.0
6707,1996.06.27,66900.0,800.0,67500.0,67700.0,66700.0,155450.0
6708,1996.06.26,67700.0,200.0,67600.0,67900.0,66000.0,136630.0


삼성전자 주가 데이터를 엑셀 파일로 저장한다

In [41]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

df = pd.read_excel('C:/Users/USER/Desktop/Practice Project - ML/삼성전자 주가 예측/samsung.xlsx')
df.head()

Unnamed: 0.1,Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,0,2023.03.21,60200,0,60500,60700,60200,3218819
1,1,2023.03.20,60200,1100,61100,61200,60200,9618009
2,2,2023.03.17,61300,1400,60800,61300,60600,14090110
3,3,2023.03.16,59900,100,59200,60200,59100,10611939
4,4,2023.03.15,59800,800,60000,60300,59600,10482149


In [42]:
df = df.drop(columns = 'Unnamed: 0')
df

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,2023.03.21,60200,0,60500,60700,60200,3218819
1,2023.03.20,60200,1100,61100,61200,60200,9618009
2,2023.03.17,61300,1400,60800,61300,60600,14090110
3,2023.03.16,59900,100,59200,60200,59100,10611939
4,2023.03.15,59800,800,60000,60300,59600,10482149
...,...,...,...,...,...,...,...
6705,1996.06.29,68500,400,68100,69100,67100,96710
6706,1996.06.28,68100,1200,67300,68500,67200,138430
6707,1996.06.27,66900,800,67500,67700,66700,155450
6708,1996.06.26,67700,200,67600,67900,66000,136630


주가 예측에 필요하지 않은 컬럼은 제거한다

In [43]:
df = df[::-1].reset_index(drop=True)
df

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,1996.06.25,67500,0,66500,68300,65600,112960
1,1996.06.26,67700,200,67600,67900,66000,136630
2,1996.06.27,66900,800,67500,67700,66700,155450
3,1996.06.28,68100,1200,67300,68500,67200,138430
4,1996.06.29,68500,400,68100,69100,67100,96710
...,...,...,...,...,...,...,...
6705,2023.03.15,59800,800,60000,60300,59600,10482149
6706,2023.03.16,59900,100,59200,60200,59100,10611939
6707,2023.03.17,61300,1400,60800,61300,60600,14090110
6708,2023.03.20,60200,1100,61100,61200,60200,9618009


In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6710 entries, 0 to 6709
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   날짜      6710 non-null   object
 1   종가      6710 non-null   int64 
 2   전일비     6710 non-null   int64 
 3   시가      6710 non-null   int64 
 4   고가      6710 non-null   int64 
 5   저가      6710 non-null   int64 
 6   거래량     6710 non-null   int64 
dtypes: int64(6), object(1)
memory usage: 367.1+ KB


In [45]:
df.isnull().sum()

날짜     0
종가     0
전일비    0
시가     0
고가     0
저가     0
거래량    0
dtype: int64

#### 변수 해석 2가지  

1. 결측치 존재 여부

- 전체 데이터에서 결측치가 존재하지 않는다.

- 만약, 결측치가 존재했다면 전체 데이터의 약 5%정도 미만의 개수는 제거해도 좋다.

- 결측치를 대체하는 경우, object형태는 최빈값으로 대체하고, int64 or float64형태는 평균으로 대체하거나 KNN을 사용할 수 있다.

2. 데이터 타입 설명

- object형태 1개, int64형태 6개로 총 7개의 변수가 존재한다.

# ML 활용 가격 예측

In [69]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
import numpy as np

X = df[['종가','시가','고가','저가','거래량']]
y = df['종가']

모델링에 필요없는 컬럼은 제거한다

In [70]:
X

Unnamed: 0,종가,시가,고가,저가,거래량
0,67500,66500,68300,65600,112960
1,67700,67600,67900,66000,136630
2,66900,67500,67700,66700,155450
3,68100,67300,68500,67200,138430
4,68500,68100,69100,67100,96710
...,...,...,...,...,...
6705,59800,60000,60300,59600,10482149
6706,59900,59200,60200,59100,10611939
6707,61300,60800,61300,60600,14090110
6708,60200,61100,61200,60200,9618009


In [71]:
y

0       67500
1       67700
2       66900
3       68100
4       68500
        ...  
6705    59800
6706    59900
6707    61300
6708    60200
6709    60200
Name: 종가, Length: 6710, dtype: int64

In [72]:
len(X)

6710

In [73]:
len(y)

6710

In [74]:
X = X.to_numpy()
y = y.to_numpy()

In [75]:
X

array([[   67500,    66500,    68300,    65600,   112960],
       [   67700,    67600,    67900,    66000,   136630],
       [   66900,    67500,    67700,    66700,   155450],
       ...,
       [   61300,    60800,    61300,    60600, 14090110],
       [   60200,    61100,    61200,    60200,  9618009],
       [   60200,    60500,    60700,    60200,  3218819]], dtype=int64)

In [76]:
y

array([67500, 67700, 66900, ..., 61300, 60200, 60200], dtype=int64)

In [77]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

mean = np.mean(X_train, axis=0)
std = np.std(X_train, axis=0)

X_train_scaled = (X_train - mean) / std
X_test_scaled = (X_test - mean) / std

model = KNeighborsRegressor()
model.fit(X_train_scaled, y_train)
model.score(X_test_scaled, y_test)

0.9971738359740144

KNeighborsRegressor를 통해 예측한 결과, 99%를 넘는 정확도를 나타내고 있다

In [78]:
y_test[:10]

array([  45300,  556000, 2369000,   75100,  470500,  593000,  746000,
         80100, 1291000, 1250000], dtype=int64)

In [79]:
model.predict(X_test_scaled[:10])

array([  44120.,  554800., 2372200.,   75460.,  471900.,  593000.,
        750600.,   79960., 1293200., 1251800.])

실제값과 예측값의 차이가 비슷한 것을 확인할 수 있다

In [80]:
model = LinearRegression()
model.fit(X_train_scaled, y_train)
model.score(X_test_scaled, y_test)

1.0

LinearRegression을 통해 예측한 결과, 100%의 정확도를 나타내고 있다

위의 결과와 같이 회귀모델 예측력이 높은 이유는 어제,오늘 가격의 등락폭이 심하지 않고 거의 비슷하기 때문에 높은 것이다

# ML 활용 등락 예측

In [81]:
df2 = df[['종가','시가','고가','저가','거래량']]
df2

Unnamed: 0,종가,시가,고가,저가,거래량
0,67500,66500,68300,65600,112960
1,67700,67600,67900,66000,136630
2,66900,67500,67700,66700,155450
3,68100,67300,68500,67200,138430
4,68500,68100,69100,67100,96710
...,...,...,...,...,...
6705,59800,60000,60300,59600,10482149
6706,59900,59200,60200,59100,10611939
6707,61300,60800,61300,60600,14090110
6708,60200,61100,61200,60200,9618009


In [82]:
X = []
y = []

for i in range(len(df2) -1):
    sample = list(df2.iloc[i])
    X.append(sample)
    if sample[0] < list(df2.iloc[i+1])[0]:
        y.append(1) 
    else:
        y.append(0)

0과1을 통해 이전 가격으로 다음 가격 예측을 실시한다(상승 = 1, 하락 = 0)

In [83]:
X = np.array(X)
y = np.array(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

mean = np.mean(X_train, axis=0)
std = np.std(X_train, axis=0)

X_train_scaled = (X_train - mean) / std
X_test_scaled = (X_test - mean) / std

In [84]:
from sklearn.neighbors import KNeighborsClassifier 

for n in range(1,20):
    model = KNeighborsClassifier(n_neighbors=n)
    model.fit(X_train_scaled, y_train)
    print(n, model.score(X_test_scaled, y_test))

1 0.485096870342772
2 0.5104321907600596
3 0.5089418777943369
4 0.5365126676602087
5 0.511177347242921
6 0.518628912071535
7 0.5149031296572281
8 0.5141579731743666
9 0.5193740685543964
10 0.5208643815201193
11 0.526080476900149
12 0.518628912071535
13 0.5320417287630402
14 0.5253353204172876
15 0.5350223546944859
16 0.5357675111773472
17 0.5275707898658718
18 0.5320417287630402
19 0.5283159463487332


이웃의 개수가 16이 약 53%로 가장 높은 것을 알 수 있고, 상승/하락을 랜덤으로 예측하는 확률보다 3% 정도 높다

In [85]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier

model_list = [('KNN', KNeighborsClassifier()),
              ('DT', DecisionTreeClassifier(max_depth=5)),
             ('LR', LogisticRegression())]

ensemble = VotingClassifier(estimators=model_list)
ensemble.fit(X_train_scaled, y_train)
ensemble.score(X_test_scaled, y_test)

0.5178837555886736

모델의 예측력을 높이기 위해 KNeighborsClassifier, LogisticRegression, DecisionTreeClassifier 3개의 알고리즘을 활용해 실시한 결과, 랜덤 예측률보다 높지만 KNeighborsClassifier 1개의 알고리즘을 통해 예측한 것과 거의 비슷한 모습을 보이고 있다. 따라서, 1일 시점의 가격으로만 예측하는 것은 어렵고 여러 시점의 가격을 통해 예측력을 높일 필요가 있어보인다

# DL 활용 주가 예측

In [95]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow import keras

In [87]:
X = df[['종가','시가','고가','저가','거래량']]
y = df['종가']

In [88]:
X = X.values.tolist()
y = y.values.tolist()

In [89]:
data_X = []
data_y = []
window = 10 

mean = np.mean(X, axis=0)
std = np.std(X, axis=0)

X = (X - mean) / std
X

array([[-9.03384452e-01, -9.05015204e-01, -9.05089554e-01,
        -9.03632613e-01, -4.54366188e-01],
       [-9.03056854e-01, -9.03209534e-01, -9.05740226e-01,
        -9.02969746e-01, -4.50900659e-01],
       [-9.04367247e-01, -9.03373685e-01, -9.06065563e-01,
        -9.01809727e-01, -4.48145220e-01],
       ...,
       [-9.13540001e-01, -9.14371858e-01, -9.16476322e-01,
        -9.11918457e-01,  1.59203078e+00],
       [-9.15341791e-01, -9.13879403e-01, -9.16638990e-01,
        -9.12581325e-01,  9.37269693e-01],
       [-9.15341791e-01, -9.14864314e-01, -9.17452331e-01,
        -9.12581325e-01,  3.63169586e-04]])

window 함수를 통해 10일의 데이터를 기준으로 그룹화한다

In [90]:
for i in range(len(y) - window):
    if y[i+window-1] < y[i+window]:
        data_y.append(1)
    else:
        data_y.append(0)
    data_X.append(X[i:i + window]) 

In [91]:
data_X[0]

array([[-0.90338445, -0.9050152 , -0.90508955, -0.90363261, -0.45436619],
       [-0.90305685, -0.90320953, -0.90574023, -0.90296975, -0.45090066],
       [-0.90436725, -0.90337369, -0.90606556, -0.90180973, -0.44814522],
       [-0.90240166, -0.90370199, -0.90476422, -0.90098114, -0.45063712],
       [-0.90174646, -0.90238877, -0.90378821, -0.90114686, -0.45674535],
       [-0.89601349, -0.90091141, -0.89858283, -0.89832967, -0.449337  ],
       [-0.8945393 , -0.89598685, -0.8956548 , -0.89302673, -0.43045594],
       [-0.89519449, -0.89450949, -0.89711882, -0.89352388, -0.45621535],
       [-0.89617729, -0.89467364, -0.89744415, -0.89385532, -0.45907035],
       [-0.89716008, -0.89598685, -0.89858283, -0.8946839 , -0.45949054]])

In [92]:
data_y[0]

1

data_X의 10일 데이터 추세를 보고 위와 같은 추세가 나타난다면 다음날 종가는 상승하는 것으로 예측한다

In [93]:
data_X = np.array(data_X)
data_y = np.array(data_y)

X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size = 0.2)

In [96]:
model = keras.Sequential()
model.add(keras.layers.SimpleRNN(10, activation = 'relu', input_shape = (10,5))) 
model.add(keras.layers.Dropout(0.1)) 
model.add(keras.layers.Dense(1, activation = 'sigmoid'))

stop = keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True)

model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = 'accuracy')
model.fit(X_train, y_train,
         validation_data = (X_test, y_test),
         epochs = 1000,
         callbacks = [stop])

Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch 25/1000


<keras.callbacks.History at 0x19712f05648>

SimpleRNN(단기기억)을 통해 실시한 결과, 머신러닝의 정확도와 거의 비슷한 모습을 보이고 있다

In [98]:
model.evaluate(X_test, y_test)



[0.6937428712844849, 0.49402984976768494]

In [80]:
model = keras.Sequential()
model.add(keras.layers.LSTM(10, activation = 'relu', input_shape = (10,5))) 
model.add(keras.layers.Dropout(0.1)) 
model.add(keras.layers.Dense(1, activation = 'sigmoid')) 

stop = keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True) 

model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = 'accuracy')
model.fit(X_train, y_train,
         validation_data = (X_test, y_test),
         epochs = 1000,
         callbacks = [stop])

Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000


<keras.callbacks.History at 0x2a88e326a88>

LSTM(장기기억)을 통해 실시한 결과, 머신러닝과 RNN의 정확도와 거의 비슷한 모습을 보이고 있다

In [100]:
model.evaluate(X_test, y_test)



[0.6937428712844849, 0.49402984976768494]

ML, DL의 모델 성능이 우수하더라도 주가 예측은 매우 어려운 것임을 확인할 수 있다. 하지만, 랜덤 예측률보다 약 2~3% 정도 높은 예측률을 나타내고 있기 때문에 추후 수익의 비율이 더욱 높아질 것이다

성과측정은 기본 베이스 코드(위의 전체 코드)를 가지고 익월 데이터를 추가 업로드해서 성과비교가 필요하다. 예를 들어, 위의 데이터로 예측한 주가를 추후 주가 예측에 대한 적중률과 비교하는 것이 필요하다