# Introduction to Time Series with Pandas

대부분의 데이터에는 날짜/시간 인덱스로 이뤄져 있습니다.<br>
pandas를 사용하여 이러한 종류의 데이터를 처리하는 방법을 알아보겠습니다!

## The `datetime` module

Python 내장 모듈, 'datetime', 시간 변수를 다루기 위한 기본 data type

In [1]:
from datetime import datetime

In [2]:
# To illustrate the order of arguments
my_year = 2017
my_month = 1
my_day = 2
my_hour = 13
my_minute = 30
my_second = 15

In [3]:
# January 2nd, 2017
my_date = datetime(my_year,my_month,my_day)

In [4]:
# Defaults to 0:00
my_date 

datetime.datetime(2017, 1, 2, 0, 0)

In [5]:
# January 2nd, 2017 at 13:30:15
my_date_time = datetime(my_year,my_month,my_day,my_hour,my_minute,my_second)

In [6]:
my_date_time

datetime.datetime(2017, 1, 2, 13, 30, 15)

원하는 datetime 객체의 일부를 변수로 접근하여 가져올 수 있습니다.

In [7]:
my_date.day

2

In [8]:
my_date_time.hour

13

In [9]:
my_date_time.year

2017

## NumPy Datetime Arrays

NumPy가 Python의 날짜/시간 형식보다 더 효율적으로 날짜를 처리합니다.<br>
NumPy 데이터 유형은 Python의 datetime과 구별하기 위해 datetime64라고 합니다. (64bit)

이 섹션에서는 NumPy에서 날짜/시간 배열을 설정하는 방법을 보여줍니다.<br>
https://docs.scipy.org/doc/numpy-1.15.4/reference/arrays.datetime.html

In [10]:
import numpy as np

In [11]:
# CREATE AN ARRAY FROM THREE DATES
np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64')

array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')

<div class="alert alert-info"><strong>dtype</strong>이 <tt>'datetime64[D]'</tt>로 나열되어 있음을 확인할 수 있습니다.<br> 이는 주어진 데이터가 Day 수준으로 측정됨을 알 수 있습니다.<br>
    시간:<TT>[h]</TT> 년도: <TT>[Y]</TT> 등 다른 측정레벨로 전달할 수 있습니다.</div>

In [12]:
np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[h]')

array(['2016-03-15T00', '2017-05-24T00', '2018-08-09T00'],
      dtype='datetime64[h]')

In [13]:
np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[Y]')

array(['2016', '2017', '2018'], dtype='datetime64[Y]')

## NumPy Date Ranges

<tt>np.arange(start,stop,step)</tt>를 사용하여 균일한 간격의 정수 배열을 생성할 수 있는 것처럼,<br>
dtype 인수를 전달하여 날짜 배열을 얻을 수 있습니다.

In [14]:
# AN ARRAY OF DATES FROM 6/1/18 TO 6/22/18 SPACED ONE WEEK APART
np.arange(start='2018-06-01', stop='2018-06-23', step=7, dtype='datetime64[D]')

array(['2018-06-01', '2018-06-08', '2018-06-15', '2018-06-22'],
      dtype='datetime64[D]')

In [15]:
np.arange('2018-06-01', '2018-06-23', 7, 'datetime64[D]')

array(['2018-06-01', '2018-06-08', '2018-06-15', '2018-06-22'],
      dtype='datetime64[D]')

* step 생략시, 1 단위로 데이터가 생성됨

In [16]:
# AN ARRAY OF DATES FOR EVERY YEAR FROM 1968 TO 1975
np.arange('1968', '1976', dtype='datetime64[Y]')

array(['1968', '1969', '1970', '1971', '1972', '1973', '1974', '1975'],
      dtype='datetime64[Y]')

## Pandas Datetime Index

We'll usually deal with time series as a datetime index when working with pandas dataframes. Fortunately pandas has a lot of functions and methods to work with time series!<br>
For more on the pandas DatetimeIndex visit https://pandas.pydata.org/pandas-docs/stable/timeseries.html

In [17]:
import pandas as pd

The simplest way to build a DatetimeIndex is with the <tt><strong>pd.date_range()</strong></tt> method:

In [18]:
# THE WEEK OF JULY 8TH, 2018
idx = pd.date_range('7/8/2018', periods=7, freq='D')
print(idx)

DatetimeIndex(['2018-07-08', '2018-07-09', '2018-07-10', '2018-07-11',
               '2018-07-12', '2018-07-13', '2018-07-14'],
              dtype='datetime64[ns]', freq='D')


<div class="alert alert-info"><strong>DatetimeIndex Frequencies:</strong> 
위의 <tt>pd.date_range()</tt>를 사용할 때 빈도 매개변수 <tt>'D'</tt>를 전달해야 합니다.<br>
이렇게 하면 하루 간격으로 7개의 날짜가 연속적으로 생성됩니다.

### pd.to_datetime() 메서드로 텍스트를 날짜로 변환

In [19]:
idx = pd.to_datetime(['Jan 01, 2018','1/2/18','03-Jan-2018', None])
idx

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', 'NaT'], dtype='datetime64[ns]', freq=None)

A third way is to pass a list or an array of datetime objects into the <tt><strong>pd.DatetimeIndex()</strong></tt> method:

In [20]:
# Create a NumPy datetime array
some_dates = np.array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')
some_dates

array(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[D]')

In [21]:
# Convert to an index
idx = pd.DatetimeIndex(some_dates)
idx

DatetimeIndex(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[ns]', freq=None)

기존 열을 인덱스로 설정하기 위해서 <tt>df.set_index()</tt> 함수를 활용할 수 있습니다.<br>
><tt>df.set_index('Date',inplace=True)</tt>

## Pandas Datetime Analysis

In [22]:
idx = pd.DatetimeIndex(some_dates)
idx

DatetimeIndex(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[ns]', freq=None)

In [23]:
# Create some random data
data = np.random.randn(3,2)
cols = ['A','B']
print(data)

[[ 0.133894    0.51668851]
 [ 0.85563864  2.48113705]
 [-0.21497946  0.82334668]]


In [24]:
# Create a DataFrame with our random data, our date index, and our columns
df = pd.DataFrame(data, index=idx, columns=cols)
df

Unnamed: 0,A,B
2016-03-15,0.133894,0.516689
2017-05-24,0.855639,2.481137
2018-08-09,-0.214979,0.823347


Now we can perform a typical analysis of our DataFrame

In [25]:
df.index

DatetimeIndex(['2016-03-15', '2017-05-24', '2018-08-09'], dtype='datetime64[ns]', freq=None)

In [26]:
# Latest Date Value
df.index.max()

Timestamp('2018-08-09 00:00:00')

In [27]:
# Latest Date Index Location
df.index.argmax()

2

In [28]:
# Earliest Date Value
df.index.min()

Timestamp('2016-03-15 00:00:00')

In [29]:
# Earliest Date Index Location
df.index.argmin()

0

<div class="alert alert-info"><strong>NOTE:</strong> Normally we would find index locations by running <tt>.idxmin()</tt> or <tt>.idxmax()</tt> on <tt>df['column']</tt> since <tt>.argmin()</tt> and <tt>.argmax()</tt> have been deprecated. However, we still use <tt>.argmin()</tt> and <tt>.argmax()</tt> on the index itself.</div>

## Great, let's move on!