# 알고리즘 데이터 학습을 위한 전처리

<img src='./img/Bigdata_Algorithm.png' width=600>

## 시계열 처리(Time Series Processing)

#### 1) Time Series Analysis

- 미래를 예측하려는 인간의 의지로 출발하였으며, 우리의 삶 모든 곳에서 시간 흐름에서 벗어날 수 없고 이를 이해하고 해석하여 의미있는 패턴을 찾아 미래를 예측하는 기술

- **시계열 데이터(Time Series Data)**: 일정한 시간 간격에 따라 순차적(Sequentially)으로 기록된 확률적 프로세스 또는 시간변화 데이터

    - 시간의 흐름에 따라 불규칙적 변동을 분석하기 위해 필수적 데이터
    
    - 과거가 미래에 어떤 영향을 주는지 분석을 통해 예측 가능
    
    - 최근 기계학습과 딥러닝을 사용하여 복잡한 데이터 예측
    
    - 시계열예측과 기계학습/딥러닝 간 전처리와 알고리즘 방식 차이 때문에, 별도로 (1) 시계열 데이터분석 단계 이해, (2) 시계열 데이터의 전처리, (3) 시계열 알고리즘 이해 필수!

<img src='./img/TS_Example1.png'>

<img src='./img/TS_Example2.png'>



#### 2) 시계열 전처리(Time Series Preprocessing)

**"시간패턴 이해와 적용을 위해 시간특징을 추출하고 반영하여 문제의 용도와 알고리즘에 맞게 사전에 처리"**

- 최근 기계학습과 딥러닝을 사용하여 복잡한 데이터 예측

- 기계학습/딥러닝과 시계열예측 간 전처리와 알고리즘 반영 차이 때문에, 시계열 변수생성 또는 알고리즘은 별도의 관점 이해 필수!

<img src='./img/TS_MS_Comparison.png'>

# 데이터 불러오기 (Data Loading)

In [2]:
# # Colab에서 실행
# # 아래 코드 실행 후 파일 선택을 눌러서 
# # 'Food_Agriculture_Organization_UN_Full.csv' 파일을 선택해주면 로딩 완료
# from google.colab import files
# files.upload()

# # 아래 코드 실행 시 'Food_Agriculture_Organization_UN_Full.csv' 데이터 출력 가능
# import pandas as pd
# df = pd.read_csv('Food_Agriculture_Organization_UN_Full.csv')
# df

In [3]:
# Local PC에서 실행
# 상대위치로 예제 데이터 로딩

import os
import pandas as pd

location_rel = os.path.join('.', 'data', 'Food_Agriculture_Organization_UN_Full.csv')
df = pd.read_csv(location_rel)
df = df[[col for col in df.columns if col[:2] != 'Y1']]
df

Unnamed: 0,Area Abbreviation,Area Code,Area,Item Code,Item,Element Code,Element,Unit,latitude,longitude,...,Y2004,Y2005,Y2006,Y2007,Y2008,Y2009,Y2010,Y2011,Y2012,Y2013
0,AF,2,Afghanistan,2511,Wheat and products,5142,Food,1000 tonnes,33.94,67.71,...,3249.0,3486.0,3704.0,4164.0,4252.0,4538.0,4605.0,4711.0,4810,4895
1,AF,2,Afghanistan,2805,Rice (Milled Equivalent),5142,Food,1000 tonnes,33.94,67.71,...,419.0,445.0,546.0,455.0,490.0,415.0,442.0,476.0,425,422
2,AF,2,Afghanistan,2513,Barley and products,5521,Feed,1000 tonnes,33.94,67.71,...,58.0,236.0,262.0,263.0,230.0,379.0,315.0,203.0,367,360
3,AF,2,Afghanistan,2513,Barley and products,5142,Food,1000 tonnes,33.94,67.71,...,185.0,43.0,44.0,48.0,62.0,55.0,60.0,72.0,78,89
4,AF,2,Afghanistan,2514,Maize and products,5521,Feed,1000 tonnes,33.94,67.71,...,120.0,208.0,233.0,249.0,247.0,195.0,178.0,191.0,200,200
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21472,ZW,181,Zimbabwe,2948,Milk - Excluding Butter,5142,Food,1000 tonnes,-19.02,29.15,...,373.0,357.0,359.0,356.0,341.0,385.0,418.0,457.0,426,451
21473,ZW,181,Zimbabwe,2960,"Fish, Seafood",5521,Feed,1000 tonnes,-19.02,29.15,...,5.0,4.0,9.0,6.0,9.0,5.0,15.0,15.0,15,15
21474,ZW,181,Zimbabwe,2960,"Fish, Seafood",5142,Food,1000 tonnes,-19.02,29.15,...,18.0,14.0,17.0,14.0,15.0,18.0,29.0,40.0,40,40
21475,ZW,181,Zimbabwe,2961,"Aquatic Products, Other",5142,Food,1000 tonnes,-19.02,29.15,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0


|**변수명**|**의미**|
|-----|-----|
|Area Abbreviation|국가명 축약어|
|Area Code|국가코드 숫자|
|Area|국가명|
|Item Code|음식코드|
|Element Code|음식 또는 사료 코드|
|Element|음식 또는 사료|
|Unit|단위|
|Latitude|생산위치 위도|
|Longitude|생산위치 경도|
|Y1961|1961년도 생산량|
|Y1962|1962년도 생산량|
|...|...|
|Y2013|2013년도 생산량|

# 시간인덱스 처리(Time Index Preprocessing)

## 시간데이터
| 대분류 | 소분류 | 컴퓨터의 분류1 | 컴퓨터의 분류2 | 
|:---: |:---: |:---: |:---: | 
| 질적변수(Qualitative Variable) | - | - | 범주형 | | | 명목형 변수(Nominal Variable) | 문자 | 범주형 | | | 순위형 변수(Ordinal Variable) | 숫자 | 범주형 | 
| 양적변수(Quantitative Variable) | - | - | 연속형 | | | 이산형 변수(Discrete Variable) | 숫자 | 연속형 | | | 연속형 변수(Continuous Variable) | 숫자 | 연속형 |


- 문자형 vs 숫자형: 문자를 숫자로 바꾸어 컴퓨터가 이해가능하도록 변환

- 범주형 vs 연속형: 범주형을 알고리즘이 이해가능하도록 변환

"범주형과 연속형 이외 다른 변수의 유형으로 날짜나 시간 데이터"

"시간변수는 시계열(Time Series) 또는 시퀀스(Time Sequence)라고도 하며 데이터분석에서 중요한 역할"

"모든 분석문제에는 시간을 고려할 수밖에 없지만 닥터 스트레인지가 되고 싶어하는 많은 분석가들에게 쉽지 않은 현실이며, 시간변수는 시계열(Time Series) 또는 시퀀스(Time Sequence)라고도 하며 데이터분석에서 중요한 역할"

```python
# 시간 정보 생성
import datetime as dt
dt.date(year, month, day)
dt.date(year, month, day, hour, minute, second)

import pandas as pd
pd.Timestamp('year-month-dayThour:minute:second')
```