# Data Crawling and Storing

## 1. Data Crawling

### 1.1. Data Source

- [Investing.com](https://kr.investing.com/)
- [미국 연방 준비 은행 경제 데이터](https://fred.stlouisfed.org/)
- [한국 은행 Open API 서비스](https://ecos.bok.or.kr/api/#/)

### 1.2. Feature list

#### 1.2.1. target

- USD/KRW : 달러 환율
- 148020 : KBSTAR (코스피 추종 ETF)
- SPY : S&P 500 추종 ETF
- Gold : 금 시세

#### 1.2.2. 원자재

- 백금, 은, 구리, 팔라듐, 니켈, 철광석, 아연, 알루미늄, 납, 호주 석탄, 우라늄, 주석
- WIT 유, 브렌트 유, 천연 가스, 유럽 천연가스, 아시아 LNG
- 커피, 해바라기씨유, 밀, 보리, 옥수수, 고무, 팜유, 올리브유, 목화, 설탕
- 소고기, 가금류, 돈육, 가축, 울
- 생선, 새우
  
#### 1.2.3. 지수
- 에너지 지수, 금속 자원 지수, 농업 원자재 지수, 산업재료 지수, 음식 및 음료 지수, 유럽 소비자 물가 지수
- 나스닥 지수

#### 1.2.4. 미국 금융 지표
- 통화 공급량, 주간 실업 수당 청구 건수, 소비자 심리 지수, 주택 판매 지수, 고위험 채권 스프레드

### 1.2.5 future target features (target의 미래)

- some days : target features 3 day after
- a week : target features 7 day after
- a month : target features 28 day after

In [14]:
from flask_app.db.data import DataReader

In [15]:
"""
    데이터 베이스 초기화
"""
DataReader.initDB(check_only=True)

In [16]:
"""
    Crawling all features
"""
df = DataReader.get_collect_all()

In [17]:
df_group = DataReader.make_target_group(df)

In [18]:
def train_test_split(df, criteria = None):
    if criteria is None:
        criteria = '2022-01-01'
    train = df.loc[df.index < criteria].copy()
    test = df.loc[df.index >= criteria].copy()
    return train, test
    
x_train, x_test = train_test_split(df)

In [19]:
y_train_3, y_test_3 = train_test_split(df_group[0])
y_train_7, y_test_7 = train_test_split(df_group[1])
y_train_14, y_test_14 = train_test_split(df_group[2])
y_train_21, y_test_21 = train_test_split(df_group[3])
y_train_28, y_test_28 = train_test_split(df_group[4])

#### DataFrame to MySQL

In [20]:
"""
    Storing raw features to mysql local server
"""
DataReader.execute_import_df(df, "finance")

5896

In [21]:
"""
    Storing train and test data to mysql local server
"""
DataReader.execute_import_df(x_train, "finance_train_x")
DataReader.execute_import_df(x_test, "finance_test_x")

260

In [22]:
DataReader.execute_import_df(y_train_3, "finance_train_y_3")
DataReader.execute_import_df(y_test_3, "finance_test_y_3")
DataReader.execute_import_df(y_train_7, "finance_train_y_7")
DataReader.execute_import_df(y_test_7, "finance_test_y_7")
DataReader.execute_import_df(y_train_14, "finance_train_y_14")
DataReader.execute_import_df(y_test_14, "finance_test_y_14")
DataReader.execute_import_df(y_train_21, "finance_train_y_21")
DataReader.execute_import_df(y_test_21, "finance_test_y_21")
DataReader.execute_import_df(y_train_28, "finance_train_y_28")
DataReader.execute_import_df(y_test_28, "finance_test_y_28")

260

MySQL to DataFrame

In [23]:
df = DataReader.execute_export_db("finance")

In [24]:
x_train = DataReader.execute_export_db("finance_train_x")
x_test = DataReader.execute_export_db("finance_test_x")

In [25]:
y_train_3 = DataReader.execute_export_db("finance_train_y_3")
y_test_3 = DataReader.execute_export_db("finance_test_y_3")
y_train_7 = DataReader.execute_export_db("finance_train_y_7")
y_test_7 = DataReader.execute_export_db("finance_test_y_7")
y_train_14 = DataReader.execute_export_db("finance_train_y_14")
y_test_14 = DataReader.execute_export_db("finance_test_y_14")
y_train_21 = DataReader.execute_export_db("finance_train_y_21")
y_test_21 = DataReader.execute_export_db("finance_test_y_21")
y_train_28 = DataReader.execute_export_db("finance_train_y_28")
y_test_28 = DataReader.execute_export_db("finance_test_y_28")