In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
import joblib #많은 양의 데이터를 학습 시킬 때 피클 파일로 저장하는 lib
import streamlit as st # 8501 port 사용
import seaborn as sns

In [11]:
# 폰트 지정
plt.rcParams['font.family'] = 'Malgun Gothic'

# 마이너스 부호 깨짐 지정
plt.rcParams['axes.unicode_minus'] = False

# 데이터 로드
data = pd.read_csv('dataset/data.csv')

data = data.dropna()  # 결측값 제거

# Date 컬럼을 'YYYYMMDD' 형식으로 변경 (datetime 형식으로 변환 후 형식 지정)
data['Date'] = pd.to_datetime(data['Date'], errors='coerce', utc=True)  # 'Date' 컬럼을 datetime 형식으로 변환, 시간대 처리
data['Date'] = data['Date'].dt.strftime('%Y%m%d')  # 'YYYYMMDD' 형식으로 변환

In [12]:
# 데이터 전처리
data = data.dropna() # 결측값 제거
X = data[['Date', 'Open', 'High', 'Low', 'Volume', 'Dividends', 'Stock Splits']] # 독립 변수
y = data['Close'] # 종속 변수
data.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits
0,19800317,0.1815,0.184404,0.1815,0.1815,10924800,0.0,0.0
1,19800318,0.1815,0.182952,0.180048,0.180048,17068800,0.0,0.0
2,19800319,0.184404,0.187308,0.184404,0.184404,18508800,0.0,0.0
3,19800320,0.184403,0.186581,0.183678,0.183678,11174400,0.0,0.0
4,19800321,0.180048,0.180048,0.177143,0.177143,12172800,0.0,0.0


In [13]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.2, random_state=42)

In [14]:
# 1. 랜덤 포레스트 모델
rf_model = RandomForestRegressor(random_state=42, n_estimators=100) # n_estimators : 모델을 구성하는 경정 틀의 갯수 수
rf_model.fit(X_train, y_train) # fit : 자동 학습
# 모델 저장
joblib.dump(rf_model, 'stock_model.pkl') # 피클 파일로 생성 (변환 시킬 객체, 파일명)

rf_y_pred = rf_model.predict(X_test) # predict : 결과값 예측

In [7]:
# 랜덤 포레스트 평가
rf_mse = mean_squared_error(y_test, rf_y_pred)
rf_r2 = r2_score(y_test, rf_y_pred)
print(f"랜덤 포레스트 - MSE : {rf_mse:.2f}, R2 : {rf_r2:.2f}")

랜덤 포레스트 - MSE : 0.06, R2 : 1.00


In [15]:
# 3. Streamlit 앱
st.title('주식 예측 시스템')
st.write('Glucose, BMI, Age 값을 입력하여 당뇨병 예측을 해보세요.')

2025-01-06 15:10:38.986 
  command:

    streamlit run c:\AIProject\.venv\lib\site-packages\ipykernel_launcher.py [ARGUMENTS]
