Skip to content
forked from dongnee/BigOne

뉴스와 주가의 연관성 분석 프로젝트

Notifications You must be signed in to change notification settings

somijjjjj/BigOne

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

73 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation


뉴스와 주가의 연관성


프로젝트 기간

2022.04.11 ~ 2022.4.29 (주말제외 15일)

팀원 : 김도연, 김세윤, 박균탁, 장은영


주제 선정

  • 코로나 이후 더 활발해진 주식 시장에 뉴스가 미치는 영향이 있는지 파악해보고자 주제 선정
  • 코로나 이후 주가의 변동폭이 큰 기업 중 하나이고, 이슈가 많은 기업이라는 이유로 "카카오" 으로 선정함

배경

많은 사람들이 뉴스를 통해 주식의 매도/매수를 결정하는 자료를 바탕으로 뉴스가 주가에 미치는 영향에 대해 파악하기로 했다.

주식시장이 코로나가 창궐한 시기에 거래가 개인 주식 순매수 100조에 육박할 정도로 활발했었다.

이 시기에 주가 변동폭이 큰 기업 중 하나인 '카카오'로 선정하였고, 이슈가 많은 기업이기에 유의미한 결과가 있으리라고 생각했다.



종목토론실에서 나타난 단어 빈도 워드크라우드

n-gram으로 자연언어처리을 통해 표현된 단어 빈도 분석


프로젝트 계획

  1. 참고자료 및 데이터 수집
    • 뉴스 크롤링 및 전처리
    • 트위터 크롤링
    • 종목토론실, 네이버view 크롤링
    • 카카오 재무제표 수집 및 주가 시각화
    • 크롤링 텍스트마이닝 시각화
  2. 데이터 가공 및 단어사전 구축, 감성분석
    • 수집데이터 형태소 분석 및 단어별 감정분류
    • KNU 감성사전 감정단어 추가
  3. 예측 모델 및 선형회귀 모델 생성
    • GRU 모델링
    • 다중 회귀분석 모델링
    • ARIMA 모델링
    • LSTM 모델링
  4. 모델 비교 및 평가

기술스택

개발언어 : Python, R
개발도구 : jupyter notebook, R studio
협업툴 : Git



구현

데이터 분석 기간

2020.1.1 ~ 2022.4.13


데이터 수집에 이용한 라이브러리

크롤링 : selenium, BeautifulSoup
트위터 오픈소스 : snscreape


수집된 데이터크기

뉴스 : (14,890*4)
종목토론실 : (223,164*5)
네이버 view : (296*3)
트위터 : (3802*4)


모델링

평가

R2(결정계수)가 모델의 대한 설명력이므로

LSTM > GRU > 다중회귀분석 > ARIMA

모델의 설명력은 LSTM이 가장 높았고, 뉴스의 긍정/부정만 가지고는 주가를 예측하기엔 힘들다는 걸 알 수 있었다.



💭Project Review

잘한 점

선정한 주제 자체가 수업에 배우지 않았던 내용이라 방향을 잡기 어려웠지만
팀원 모두가 주제에 대해 머리를 맞대어 해결해야 할 문제와 개념들을 쪼개어 좁혀나감으로써
프로젝트를 완성 시키고 마무리할 수 있었다고 생각합니다.

강의에서 배운 분석 기법 이외의 것도 학습함으로써, 주제에 적용 시켜 볼 수 있었습니다.

팀원 모두가 각자 맡은 역할을 충실히 수행하여 일정을 지키며 진행할 수 있었습니다.

아쉬운 점

딥러닝 기반 모델에 대해 이해도가 낮아 충분한 모델 설명이 안된듯하여 아쉽지만 이번 프로젝트 경험을 통해 머신러닝과 그나마 가까워진 듯 하여 만족스럽습니다.

직접 수집하고 가공한 긍정/부정 단어를 분석에 더욱 활용하지 못한 것이 아쉽습니다.

예측 모델에 인풋 데이터로 지난 sns언급량 등을 추가하여 여러 데이터로 모델을 구성을 해보았으면 좋았을 거 같습니다.



Reference

  • 주가 예측 관련 글

https://ohshinyeop.tistory.com/13

[LSTM/GRU] 주식가격 예측 모델 구현

주식, 비트코인 예측 : 머신러닝 분류모델 : 개념, 종류, 특징

[파이썬]딥러닝(LSTM)을 이용한 'Apple' 주가 예측하기

[파이썬] 예측모델 (LSTM 모델 주가예측)

주가 예측 모델 생성시 주의사항

주가 예측모델 예시(RNN, LSTM)

비트코인 예측

주가 데이터 불러오는 법

20년 이후로 주식을 시작한 사람들의 수익 분석 및 주식 투자 예측

주가예측 그리기

LSTM을활용한주가예측모델

ARIMA모델


  • 감성분석 관련 글

[NLP] 텍스트 분류와 감성(Sentiment)분석 구현하기

KNU 한국어 감성사전 - 긍/부정 단어

긍/부정 분류 → 주가 특성상 수치로 표현된 기사 제목들도 많으므로, 수치에 대한 기준도 필요할 것

R. 텍스트 마이닝 _ 감정 분석


  • 자연어 처리

https://blog.naver.com/dalgoon02121/222051184805

https://wonhwa.tistory.com/35


  • 기타

https://right1203.github.io/study/2018/09/12/sentiment-analysis-1/

About

뉴스와 주가의 연관성 분석 프로젝트

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.3%
  • R 0.7%