## 금융데이터를 통한 AI/머신러닝 활용 영역
* 이상탐지(금융 사기 탐지)
* 리스크 평가 및 관리
* 플랫폼 서비스 제공
* 투자 관리


## 금융 데이터를 활용한 모델링 방법론 
* 투자 의사결정 : 거시경제, 재무제표, 시장데이터를 입력변수로 분류분석
* 시그널 만들기 : 가치 시그널, 기술적 시그널, 시장 미시구조 시그널 등
* 자산 관계 분석 : 머신러닝 비지도 학습 (상관분석 등)
* 감성 분석 : 자연어처리 기술을 통해 트윗 등 감성분석 (투자자 의견)
* 시장 트렌드/ 레짐(regime) 결정 : 지도학습인 은닉 마르코프 모형 활용
* 단기 자산 가격의 방향 예측 : 라쏘회귀, 로지스틱회귀, k-최근접 이웃
* 수익률이 가장 좋은 투자 전략 찾기 : 강화학습, 딥러닝
* 기존에 알려진 factor 분석 : PCA 등을 사용해 최고의 데이터 표현을 찾는다
* 노이즈가 섞인 데이터에서 자산의 가격 방향/시그널 찾기 : 서포트 벡터 머신 등 지도학습 분류 알고리즘 활용

## 투자 영역에서 활용하는 데이터
|재무제표 데이터|시장 데이터|분석 데이터|대체 데이터|
|------|---|---|-----|
|자산|가격/변동성|애널리스트 추천|위성/CCTV이미지|
|부채|거래량|기업 신용등급|구글 검색어|
|판매량|배당|이익 예측|트윗/SNS|
|비용/이익|이자율|감성 분석|메타 데이터|
|거시변수|상장/폐지|...|...|
|판매량|배당|...|...|

## 데이터 유용성 검증을 위한 여섯가지 접근법
|관점|설명|
|---|---|
|신뢰성|데이터가 얼마나 정확한가|
|세분화|데이터 포인트가 얼마나 세분화 되었는가|
|효용성|데이터를 언제 반영했으며, 최신 트렌드를 반영했는가|
|사용범위|데이터가 포괄하는 범위|
|행동 가능성|데이터에 기반해 구체적인 행동과 결정을 실행할 수 있는가|
|희소성|데이터가 얼마나 희소성이 있는가|

## 금융데이터 전처리
### 에러의 주된 원인 제거 - 결측치와 이상치 처리
* 금융 시계열 분석에서 backward fill 방법은 사전 관찰 편향 문제를 일으킬 수 있기 때문에 보통 foward fill 방법으로 결측치 처리, 경우에 따라 평균값도 사용가능
* df.fillna(method='ffill')
* 시계열 데이터 분석 시 셔플X

## 전통 퀀트 투자 전략
### 1.평균 회귀 전략(볼린저 밴드)
### 2.듀얼 모멘텀 전략
### 3.가치 투자 퀀트 전략
#### 3-1.조엘 그린블라트의 마법 공식
* 우량한 기업을 저렴한 가격에 매수하는 초간단 주식투자법
* 시가총액 순으로 나열 후 일정 금액 이상의 종목을 기준으로 설정
* 투자 종목 선정 시 이상치가 있는 종목 제거(상장한지 얼마안됨, 이익 수일률 지표(-)값)
* 자본 수익률과 이익 수익률 순위를 매겨 상위 종목 기업 선택
* 자본 수익률은 투입된 자본 대비 수익을 얼마나 올릴 수 있는지를 판단하는 지표
* 이익 수익률은 주가 대비 수익을 얼마나 올릴 수 있는지 판단하는 지표
* 대개 자본 수익률=ROA, 이익 수익률=PER 사용
* ROA 높을 수록 우량 주식, PER 낮을 수록 저렴한 주식

#### 3-2.마법공식 워크플로
1. 투자에 사용할 자금과 투자 대상 기업 규모를 설정
2. 마법공식에 따른 순위 나열<br>(ex. kospi200에서 자본 수익률이 높은 기업에 대한 순위를 매기고, 동시에 이익수익률이 높은 기업을 순서대로 나열)
3. 자본 수익률 순위와 이익 수익률 순위를 더한다.<br>(ex. 예를 들면, 자본 수익률 순위 1위와 이익 수익률 순위 4위의 총합은 5이다.)<br>==>더한 값이 낮은 순으로 순위를 매긴다.
4. 등수가 가장 낮은 5-7개 기업을 매수한다.<br>처음 투자 기간 1년 

---

동안은 투자 금액의 20-30%만 매수한다.
5. 나머지 자금을 2~3개월마다 위 과정을 반복해 예정 투자금의 100%를 사용해 매수한다.
6. 매수가 완료된 주식을 1년 동안 보유한 후 매도한다.
7. 매도 이후 위 과정을 계속해서 반복한다.

## 머신러닝을 활용한 투자 전략
* ETFs 지수와 거시경제 지표를 바탕으로 트리 기반 알고리즘을 활용해 시장의 트렌드 예측하는 전략
* 여러 종목의 주가 데이터를 기반으로 클로스터링 알고리즘을 활용해 종목을 분류하는 전략
* K-최근접 이웃 방법을 활용한 투자 방향성 예측 전략

## 금융데이터 전처리 방법
### 노이즈 제거 방법
* 이동 평균, 지수 이동 평균
* 웨이블릿 변환
* PCA (다수의 feature에 불필요한 요소 제거)
* 오토 인코더(SAE)

## 머신러닝을 활용한 전략의 평가 지표
* 분류 분석 : 정확도, AUC-ROC 점수
* 백테스팅
* 수수료와 슬리피지
* 생존 편향 : 상장 폐지 종목 제외하고 백테스팅하여 발생
* 사전 관찰 편향 : 3월 GDP 지수 4월말에 발표하는데, 백테스팅 시 이미 알고 있다는 가정하에 사용



















## 금융 데이터를 활용한 시장 예측 문제
|상품|토픽|데이터|
|------|---|---|
|주식|가격 예측|가격 데이터|
|외환 시장|방향성 예측|가공한 기술 지표|
|원자재|종목 선택|거시경제 지표|
|부동산|변동성 예측|텍스트|
|인덱스|...|이미지|
|암호화폐|...|기타 대안 정보|

* 분석 대상 (자산) 선택 후 어떤 방법으로 분석할지 결정
<br>주가 트랜드 예측의 경우 트렌드에 대한 정의부터 시작
* 실제 트레이딩 가능 여부 고려
* 최대한 많은 데이터 수집
* 수집된 데이터와 정의된 문제에 맞는 분석 방법론과 머신러닝 모델 선택



