2022.04.11 ~ 2022.4.29 (주말제외 15일)
팀원 : 김도연, 김세윤, 박균탁, 장은영
- 코로나 이후 더 활발해진 주식 시장에 뉴스가 미치는 영향이 있는지 파악해보고자 주제 선정
- 코로나 이후 주가의 변동폭이 큰 기업 중 하나이고, 이슈가 많은 기업이라는 이유로 "카카오" 으로 선정함
많은 사람들이 뉴스를 통해 주식의 매도/매수를 결정하는 자료를 바탕으로 뉴스가 주가에 미치는 영향에 대해 파악하기로 했다.
주식시장이 코로나가 창궐한 시기에 거래가 개인 주식 순매수 100조에 육박할 정도로 활발했었다.
이 시기에 주가 변동폭이 큰 기업 중 하나인 '카카오'로 선정하였고, 이슈가 많은 기업이기에 유의미한 결과가 있으리라고 생각했다.
- 참고자료 및 데이터 수집
- 뉴스 크롤링 및 전처리
- 트위터 크롤링
- 종목토론실, 네이버view 크롤링
- 카카오 재무제표 수집 및 주가 시각화
- 크롤링 텍스트마이닝 시각화
- 데이터 가공 및 단어사전 구축, 감성분석
- 수집데이터 형태소 분석 및 단어별 감정분류
- KNU 감성사전 감정단어 추가
- 예측 모델 및 선형회귀 모델 생성
- GRU 모델링
- 다중 회귀분석 모델링
- ARIMA 모델링
- LSTM 모델링
- 모델 비교 및 평가
개발언어 : Python, R
개발도구 : jupyter notebook, R studio
협업툴 : Git
2020.1.1 ~ 2022.4.13
크롤링 : selenium, BeautifulSoup
트위터 오픈소스 : snscreape
뉴스 : (14,890*4)
종목토론실 : (223,164*5)
네이버 view : (296*3)
트위터 : (3802*4)
R2(결정계수)가 모델의 대한 설명력이므로
LSTM > GRU > 다중회귀분석 > ARIMA
모델의 설명력은 LSTM이 가장 높았고, 뉴스의 긍정/부정만 가지고는 주가를 예측하기엔 힘들다는 걸 알 수 있었다.
선정한 주제 자체가 수업에 배우지 않았던 내용이라 방향을 잡기 어려웠지만
팀원 모두가 주제에 대해 머리를 맞대어 해결해야 할 문제와 개념들을 쪼개어 좁혀나감으로써
프로젝트를 완성 시키고 마무리할 수 있었다고 생각합니다.
강의에서 배운 분석 기법 이외의 것도 학습함으로써, 주제에 적용 시켜 볼 수 있었습니다.
팀원 모두가 각자 맡은 역할을 충실히 수행하여 일정을 지키며 진행할 수 있었습니다.
딥러닝 기반 모델에 대해 이해도가 낮아 충분한 모델 설명이 안된듯하여 아쉽지만 이번 프로젝트 경험을 통해 머신러닝과 그나마 가까워진 듯 하여 만족스럽습니다.
직접 수집하고 가공한 긍정/부정 단어를 분석에 더욱 활용하지 못한 것이 아쉽습니다.
예측 모델에 인풋 데이터로 지난 sns언급량 등을 추가하여 여러 데이터로 모델을 구성을 해보았으면 좋았을 거 같습니다.
- 주가 예측 관련 글
https://ohshinyeop.tistory.com/13
주식, 비트코인 예측 : 머신러닝 분류모델 : 개념, 종류, 특징
[파이썬]딥러닝(LSTM)을 이용한 'Apple' 주가 예측하기
20년 이후로 주식을 시작한 사람들의 수익 분석 및 주식 투자 예측
- 감성분석 관련 글
[NLP] 텍스트 분류와 감성(Sentiment)분석 구현하기
긍/부정 분류 → 주가 특성상 수치로 표현된 기사 제목들도 많으므로, 수치에 대한 기준도 필요할 것
- 자연어 처리
https://blog.naver.com/dalgoon02121/222051184805
- 기타
https://right1203.github.io/study/2018/09/12/sentiment-analysis-1/