## 시게열 데이터
- 일정한 시간 간격에 따른 정보량을 기록
- **설명변수가 시간으로 고정**
- **기록되는 시간 간격이 동일**

### 자기상관 관계
- **과거의 데이터가 현재의 데이터에 영향을 주는 경향**

### 추세 경향성
- **시간의 흐름에 다라 영향을 받는 데이터의 중장기적인 지속적 데이터의 변동**
- 추세 경향성을 선형 회귀로 분석할 때는 자기상관 관계가 있는지를 먼저 확인한 후 적용
- 자기상관 관계가 있는 경우에는 섢ㅇ 회귀 외에 다른 시계열 분석 방법을 함께 고려

### 계절성, 순환성
- 계절성 : 봄/여름/가을/겨울, 일/주/월/분기와 같은 기간의 변화등에 따라 주기적으로 변동하는 성질, 데이터의 피크의 예측 가능

- 순환성 : 일정한 기간과는 상관없이 데이터의 변동성이 반복, 1년을 넘겨 주기적으로 발생하는 데이터의 반복성, 데이터의 피크 예측이 어려움

- 불확실성 : 확률분포에 다른 신뢰구간이 같이 제공되어 평가

### 시계열 객체
- date, POSIXct, POsiXlt, yearmon, yearqt

### date : 'yyyy-mm-dd' 형태

In [1]:
(date <- as.Date(c("2021-01-31", "2021-02-28", "2021-03-31")))

In [3]:
(date <- as.Date(c('21/01/31', '21/02/28', '21/03/31'), format = '%y/%m/%d'))

date class의 클래스를 unclass하면 내부적으로 저장된 1970년 이후의 날짜

In [4]:
unclass(date)

### POSIXct, POSIXlt : 1970년 이후의 시간을 초 단위로 기록
- POSIXct는 1970년 이후의 시간을 초 단위의 정수로 기록
- POSIXlt는 연, 월, 일, 시, 분, 초의 정보를 리스트 형태로 기록 (1900년 이후로 계산되어 리스트 생성)

In [7]:
# character를 POSIXct class로 변환
as.POSIXct('2021-01-31 12:34:56')

[1] "2021-01-31 12:34:56 KST"

In [8]:
# POSIXct를 해제하면 정수
unclass(as.POSIXct('2021-01-31 12:34:56'))

In [9]:
# character를 POSIXlt class로 변환
as.POSIXlt('2021-01-31 12:34:56')

[1] "2021-01-31 12:34:56 KST"

In [10]:
# POSIXlt에서 1900년 이후 연도를 추출
unclass(as.POSIXlt('2021-12-31 12:34:56'))

In [11]:
# POSIXlt에서 1900년 이후 연도를 추출
as.POSIXlt('2021-12-31 12:34:56')$year

### yearmon, yearqtr : 연, 월로 표현되거나 연, 분기로 표현된 시간 데이터가 있을 때 사용

- yearmon : 1월을 0으로, 2웡를 1/12, 12월을 11/12
- yearqtr : 분기마다 0.25씩 더해서 저장

In [13]:
library(zoo)

In [15]:
# character를 yearmon class로 변환
as.yearmon("2007-02")

[1] "2 2007"

In [16]:
# yearmon class를 해제하면 double
unclass(as.yearmon("2007-02"))

In [18]:
# 날짜가 있어도 yearmon은 연, 월까지만 인식
as.yearmon("2007-02-01")
?as.yearmon

[1] "2 2007"

In [19]:
# character를 yearqtr class로 변환(1분기)
as.yearqtr("2007-01")

[1] "2007 Q1"

In [22]:
# yearqtr class를 해제하면 double
as.yearqtr("2007-04")
unclass(as.yearqtr("2007-04"))

[1] "2007 Q4"

### 날짜, 시간 포맷

| 표준 코드 | 설명 | 예 |
| -- | -- | -- |
| %d | 월의 날짜(정수) | 23 |
| %m | 월(정수) | 12 |
| %B | 전체 월 이름 | January |
| %b | 축약형 월 이름 | Jan |
| %Y | 4자리 연도 | 2010 |
| %y | 2자리 연도 | 10 |
| %a | 요일 | 수 |


In [23]:
as.Date('01/12/2010', format = '%d/%m/%Y')

In [24]:
Sys.setlocale("LC_ALL", "English")

In [25]:
as.Date('01jan21', format = '%d%b%y')

In [26]:
Sys.setlocale("LC_ALL", "Korean")

In [27]:
as.Date('011월21', format = '%d%b%y')

### 시계열 데이터 객체

### ts : 시계열 데이터 타입

1959년 2분기부터 주기가 분기인 ts객체

- **frequency = 4 : 분기**
- **frequency = 12 : 월**

In [28]:
ts(1:10, frequency = 4, start = c(1959, 2))

Unnamed: 0,Qtr1,Qtr2,Qtr3,Qtr4
1959,,1,2,3.0
1960,4.0,5,6,7.0
1961,8.0,9,10,


### xts

In [29]:
library(xts)

2008 8월 1일부터 5일치 데이터를 가지는 xts object

In [30]:
set.seed(345)
xts(rnorm(5), as.Date("2008-08-01") + 0:4)

                  [,1]
2008-08-01 -0.78490816
2008-08-02 -0.27951436
2008-08-03 -0.16145790
2008-08-04 -0.29059656
2008-08-05 -0.06753159

In [36]:
ts <- ts(1:10, frequency = 4, start = c(1959, 2))
as.xts(ts)

        [,1]
1959 Q2    1
1959 Q3    2
1959 Q4    3
1960 Q1    4
1960 Q2    5
1960 Q3    6
1960 Q4    7
1961 Q1    8
1961 Q2    9
1961 Q3   10

In [38]:
# 시계열 데이터 형태로 보이지 않음
head(ts)

In [39]:
# 시계열 형태로 보임
head(as.xts(ts))

        [,1]
1959 Q2    1
1959 Q3    2
1959 Q4    3
1960 Q1    4
1960 Q2    5
1960 Q3    6

### tsibble : tsibble, fable, feast, prophet 패키지 적용 가능

- 각 관찰값을 고유하게 식별할 수 있는 칼럼 혹은 칼럼의 집합인 key와 시간의 순서가 지정되는 index를 필요
- tibble 객체에서는 key로 특정 데이터의 관찰값을 식별할 수 있지만, tsibble에서는 key를 통해 특정 데이터를 식별하고 index를 통해 식별된 데이터의 특정 시간의 데이터 값을 식별 가능

In [43]:
library(tsibble)
library(tidyverse)

### as_tsibble(x, key, index)

In [49]:
set.seed(345)
x <- data.frame(date = as.Date('2008-01-01') + 0:9, id = 1:10, 
                x1 = rnorm(10), 
                x2= rep('a', 10))

as_tsibble(x, key = id, index = date)

date,id,x1,x2
<date>,<int>,<dbl>,<chr>
2008-01-01,1,-0.78490816,a
2008-01-02,2,-0.27951436,a
2008-01-03,3,-0.1614579,a
2008-01-04,4,-0.29059656,a
2008-01-05,5,-0.06753159,a
2008-01-06,6,-0.63352041,a
2008-01-07,7,-0.92772397,a
2008-01-08,8,1.71077101,a
2008-01-09,9,1.65476865,a
2008-01-10,10,1.81048251,a


In [46]:
as_tsibble(x, index = date)

date,id,x1,x2
<date>,<int>,<dbl>,<chr>
2008-01-01,1,-0.78490816,a
2008-01-02,2,-0.27951436,a
2008-01-03,3,-0.1614579,a
2008-01-04,4,-0.29059656,a
2008-01-05,5,-0.06753159,a
2008-01-06,6,-0.63352041,a
2008-01-07,7,-0.92772397,a
2008-01-08,8,1.71077101,a
2008-01-09,9,1.65476865,a
2008-01-10,10,1.81048251,a


### 데이터 import

In [50]:
library(readxl)

students.all <- read_excel("C:/Users/이찬솔/Documents/시계열/students.xlsx", 
                           skip = 16, na = '-', sheet = 1, 
                           col_types = c('text', 'text', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric', 'numeric','numeric', 'numeric', 'numeric'))

students <- students.all %>%
  filter(지역규모 == '계') %>% select(-지역규모)

head(students)

연도,학생수계,유치원,초등학교,중학교,고등학교계,일반계고,전문계고,일반고,특목고,특성화고,자율고,특수학교,공민학교,고등공민,고등기술학교,각종학교
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1999,8658358,534166,3935537,1896956,2251140,1399389,851751,0,0,0,0,23490,150,511,8399,8009
2000,8535867,545263,4019991,1860539,2071468,1324482,746986,0,0,0,0,23605,150,297,6601,7953
2001,8414423,545142,4089429,1831152,1911173,1259975,651198,0,0,0,0,23769,140,302,5408,7908
2002,8361933,550256,4138366,1841030,1795509,1220146,575363,0,0,0,0,23453,145,156,4911,8107
2003,8379775,546531,4175626,1854641,1766529,1224452,542077,0,0,0,0,24119,105,150,4324,7750
2004,8371630,541713,4116195,1933543,1746560,1232010,514550,0,0,0,0,23876,106,147,3457,6033


In [57]:
students$연도 <- as.Date(paste0(students$연도, '-01-01'))
head(students)

연도,학생수계,유치원,초등학교,중학교,고등학교계,일반계고,전문계고,일반고,특목고,특성화고,자율고,특수학교,공민학교,고등공민,고등기술학교,각종학교
<date>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1999-01-01,8658358,534166,3935537,1896956,2251140,1399389,851751,0,0,0,0,23490,150,511,8399,8009
2000-01-01,8535867,545263,4019991,1860539,2071468,1324482,746986,0,0,0,0,23605,150,297,6601,7953
2001-01-01,8414423,545142,4089429,1831152,1911173,1259975,651198,0,0,0,0,23769,140,302,5408,7908
2002-01-01,8361933,550256,4138366,1841030,1795509,1220146,575363,0,0,0,0,23453,145,156,4911,8107
2003-01-01,8379775,546531,4175626,1854641,1766529,1224452,542077,0,0,0,0,24119,105,150,4324,7750
2004-01-01,8371630,541713,4116195,1933543,1746560,1232010,514550,0,0,0,0,23876,106,147,3457,6033


In [58]:
students.ts <- ts(students, frequency = 1, start = 1999)
head(students.ts)

연도,학생수계,유치원,초등학교,중학교,고등학교계,일반계고,전문계고,일반고,특목고,특성화고,자율고,특수학교,공민학교,고등공민,고등기술학교,각종학교
10592,8658358,534166,3935537,1896956,2251140,1399389,851751,0,0,0,0,23490,150,511,8399,8009
10957,8535867,545263,4019991,1860539,2071468,1324482,746986,0,0,0,0,23605,150,297,6601,7953
11323,8414423,545142,4089429,1831152,1911173,1259975,651198,0,0,0,0,23769,140,302,5408,7908
11688,8361933,550256,4138366,1841030,1795509,1220146,575363,0,0,0,0,23453,145,156,4911,8107
12053,8379775,546531,4175626,1854641,1766529,1224452,542077,0,0,0,0,24119,105,150,4324,7750
12418,8371630,541713,4116195,1933543,1746560,1232010,514550,0,0,0,0,23876,106,147,3457,6033


In [59]:
students.xts <- as.xts(students[,-1], order.by = students$연도)
head(students.xts)

           학생수계 유치원 초등학교  중학교 고등학교계 일반계고 전문계고 일반고
1999-01-01  8658358 534166  3935537 1896956    2251140  1399389   851751      0
2000-01-01  8535867 545263  4019991 1860539    2071468  1324482   746986      0
2001-01-01  8414423 545142  4089429 1831152    1911173  1259975   651198      0
2002-01-01  8361933 550256  4138366 1841030    1795509  1220146   575363      0
2003-01-01  8379775 546531  4175626 1854641    1766529  1224452   542077      0
2004-01-01  8371630 541713  4116195 1933543    1746560  1232010   514550      0
           특목고 특성화고 자율고 특수학교 공민학교 고등공민 고등기술학교
1999-01-01      0        0      0    23490      150      511         8399
2000-01-01      0        0      0    23605      150      297         6601
2001-01-01      0        0      0    23769      140      302         5408
2002-01-01      0        0      0    23453      145      156         4911
2003-01-01      0        0      0    24119      105      150         4324
2004-01-01      0        0      0    23876      106   

In [60]:
students.tsibble <- students %>%
  mutate(연도 = yearmonth(paste0(students$연도, '-01-01')))
head(students.tsibble)

연도,학생수계,유치원,초등학교,중학교,고등학교계,일반계고,전문계고,일반고,특목고,특성화고,자율고,특수학교,공민학교,고등공민,고등기술학교,각종학교
<mth>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1999 1,8658358,534166,3935537,1896956,2251140,1399389,851751,0,0,0,0,23490,150,511,8399,8009
2000 1,8535867,545263,4019991,1860539,2071468,1324482,746986,0,0,0,0,23605,150,297,6601,7953
2001 1,8414423,545142,4089429,1831152,1911173,1259975,651198,0,0,0,0,23769,140,302,5408,7908
2002 1,8361933,550256,4138366,1841030,1795509,1220146,575363,0,0,0,0,23453,145,156,4911,8107
2003 1,8379775,546531,4175626,1854641,1766529,1224452,542077,0,0,0,0,24119,105,150,4324,7750
2004 1,8371630,541713,4116195,1933543,1746560,1232010,514550,0,0,0,0,23876,106,147,3457,6033


In [61]:
students.tsibble <- as_tsibble(students.tsibble, index = 연도)
head(students.tsibble)

연도,학생수계,유치원,초등학교,중학교,고등학교계,일반계고,전문계고,일반고,특목고,특성화고,자율고,특수학교,공민학교,고등공민,고등기술학교,각종학교
<mth>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1999 1,8658358,534166,3935537,1896956,2251140,1399389,851751,0,0,0,0,23490,150,511,8399,8009
2000 1,8535867,545263,4019991,1860539,2071468,1324482,746986,0,0,0,0,23605,150,297,6601,7953
2001 1,8414423,545142,4089429,1831152,1911173,1259975,651198,0,0,0,0,23769,140,302,5408,7908
2002 1,8361933,550256,4138366,1841030,1795509,1220146,575363,0,0,0,0,23453,145,156,4911,8107
2003 1,8379775,546531,4175626,1854641,1766529,1224452,542077,0,0,0,0,24119,105,150,4324,7750
2004 1,8371630,541713,4116195,1933543,1746560,1232010,514550,0,0,0,0,23876,106,147,3457,6033


### CSV 파일

In [67]:
employees <- read.csv('C:/Users/이찬솔/Documents/시계열/산업별_취업자_20210206234505.csv', 
                      header = TRUE, # 철 줄은 헤더 줄로 설정
                      na = '-',  # '-'로 기록된 데이터는 NA로 설정
                      strip.white = TRUE, # 빈칸은 제거
                      stringsAsFactors = TRUE)

colnames(employees) <- c('time', 'total', 'employees.edu')
employees$time <- as.Date(paste0(employees$time, '. 01'), format = '%Y. %m. %d')
head(employees)

Unnamed: 0_level_0,time,total,employees.edu
Unnamed: 0_level_1,<date>,<int>,<int>
1,2013-01-01,24287,1710
2,2013-02-01,24215,1681
3,2013-03-01,24736,1716
4,2013-04-01,25322,1745
5,2013-05-01,25610,1774
6,2013-06-01,25686,1786


In [68]:
employees.ts <- ts(employees, start = c(2013, 01), frequency = 12)
head(employees.ts)

employees.xts <- xts(employees[,2:3], order.by = employees[,1])
head(employees.xts)

employees.tsibble <- as_tsibble(employees, index = time)
head(employees.tsibble)

time,total,employees.edu
15706,24287,1710
15737,24215,1681
15765,24736,1716
15796,25322,1745
15826,25610,1774
15857,25686,1786


           total employees.edu
2013-01-01 24287          1710
2013-02-01 24215          1681
2013-03-01 24736          1716
2013-04-01 25322          1745
2013-05-01 25610          1774
2013-06-01 25686          1786

time,total,employees.edu
<date>,<int>,<int>
2013-01-01,24287,1710
2013-02-01,24215,1681
2013-03-01,24736,1716
2013-04-01,25322,1745
2013-05-01,25610,1774
2013-06-01,25686,1786


### 추가 실습 데이터 생성

In [82]:
covid19 <- read.csv('C:/Users/이찬솔/Documents/시계열/covid19.csv', 
                    header = TRUE, 
                    na = '-', 
                    strip.white = TRUE, 
                    stringsAsFactors = TRUE)
colnames(covid19) <- c('category', 'status', 'date', 'value')
covid19 <- covid19[, c(3, 1, 2, 4)]
covid19$date <- as.Date(covid19$date, "%Y. %m. %d")

covid19 <- covid19 %>%
  filter(grepl('세', category)) %>%
  filter(category != '세종')

covid19$value <- ifelse(is.na(covid19$value), 0, covid19$value)

head(covid19)

Unnamed: 0_level_0,date,category,status,value
Unnamed: 0_level_1,<date>,<fct>,<fct>,<dbl>
1,2020-04-09,0-9세,신규,2
2,2020-04-10,0-9세,신규,1
3,2020-04-11,0-9세,신규,1
4,2020-04-12,0-9세,신규,0
5,2020-04-13,0-9세,신규,2
6,2020-04-14,0-9세,신규,0


In [83]:
covid19 <- spread(covid19, category, value)

head(covid19)

Unnamed: 0_level_0,date,status,0-9세,10-19세,20-29세,30-39세,40-49세,50-59세,60-69세,70-79세,80세 이상
Unnamed: 0_level_1,<date>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,2020-04-09,신규,2,4,12,7,7,2,2,0,3
2,2020-04-10,신규,1,1,7,4,2,3,6,2,1
3,2020-04-11,신규,1,5,5,2,3,6,7,0,1
4,2020-04-12,신규,0,3,13,5,1,4,3,3,0
5,2020-04-13,신규,2,1,10,2,1,2,5,1,1
6,2020-04-14,신규,0,3,7,4,4,3,3,2,1


In [84]:
covid19.ts <- ts(covid19[, 2:10], frequency = 365)
head(covid19.ts)

covid19.xts <- as.xts(covid19[, 3:10], order.by = covid19$date)
head(covid19.xts)

covid19.tsibble <- as_tsibble(covid19, index = date)
head(covid19.tsibble)

status,0-9세,10-19세,20-29세,30-39세,40-49세,50-59세,60-69세,70-79세
1,2,4,12,7,7,2,2,0
1,1,1,7,4,2,3,6,2
1,1,5,5,2,3,6,7,0
1,0,3,13,5,1,4,3,3
1,2,1,10,2,1,2,5,1
1,0,3,7,4,4,3,3,2


           0-9세 10-19세 20-29세 30-39세 40-49세 50-59세 60-69세 70-79세
2020-04-09     2       4      12       7       7       2       2       0
2020-04-10     1       1       7       4       2       3       6       2
2020-04-11     1       5       5       2       3       6       7       0
2020-04-12     0       3      13       5       1       4       3       3
2020-04-13     2       1      10       2       1       2       5       1
2020-04-14     0       3       7       4       4       3       3       2

date,status,0-9세,10-19세,20-29세,30-39세,40-49세,50-59세,60-69세,70-79세,80세 이상
<date>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2020-04-09,신규,2,4,12,7,7,2,2,0,3
2020-04-10,신규,1,1,7,4,2,3,6,2,1
2020-04-11,신규,1,5,5,2,3,6,7,0,1
2020-04-12,신규,0,3,13,5,1,4,3,3,0
2020-04-13,신규,2,1,10,2,1,2,5,1,1
2020-04-14,신규,0,3,7,4,4,3,3,2,1
