## 課程說明
此堂課程專注在處理日期與時間問題，可能兩天之間的時間或是持續多久的時間，通過類似的方式來處理。課程中也會回顧一下python的日期、時間處理函式。  

In [1]:
import pandas as pd
import datetime as dt

## Review of Python's datetime Module

In [2]:
dt.date(2018, 5, 2)

datetime.date(2018, 5, 2)

In [3]:
day = dt.date(2018, 5, 2)

In [4]:
#  利用year month day取得物件的年月日
print(day.year, day.month, day.day)

2018 5 2


In [5]:
#  datetime如果沒有提供時間會預設為半夜12點
dt.datetime(2018, 5, 2)

datetime.datetime(2018, 5, 2, 0, 0)

In [6]:
#  年月日時分
dt.datetime(2018, 5, 2, 19, 0)

datetime.datetime(2018, 5, 2, 19, 0)

In [7]:
#  年月日時分秒
dt.datetime(2018, 5, 2, 19, 0, 10)

datetime.datetime(2018, 5, 2, 19, 0, 10)

In [8]:
str(dt.datetime(2018, 5, 2, 19, 0, 10))

'2018-05-02 19:00:10'

In [9]:
day = dt.datetime(2018, 5, 2, 19, 0, 10)
#  可透過年月日時分秒來提取相關時間格式
print(day.year, day.month, day.day, day.hour, day.minute, day.second)

2018 5 2 19 0 10


## The pandas Timestamp Object

In [10]:
#  pandas的timestamp沒給定時間的情況下也是預設為半夜十二點
pd.Timestamp("2018-05-02")

Timestamp('2018-05-02 00:00:00')

In [11]:
pd.Timestamp('2018/5/2')

Timestamp('2018-05-02 00:00:00')

In [12]:
pd.Timestamp('2018, 5, 2')

Timestamp('2018-05-02 00:00:00')

In [13]:
pd.Timestamp('5/2/2018')

Timestamp('2018-05-02 00:00:00')

In [14]:
#  即使將日期放在前面也可以順利的解析
#  所以格式上要注意到當月在前面可以解析的時候，就會以月為主
pd.Timestamp('30/5/2018')

Timestamp('2018-05-30 00:00:00')

In [15]:
pd.Timestamp('2018-5-2 20:00:00')

Timestamp('2018-05-02 20:00:00')

In [16]:
pd.Timestamp('2018-5-2 08:00:00 PM')

Timestamp('2018-05-02 20:00:00')

In [17]:
pd.Timestamp(dt.date(2018, 5, 2))

Timestamp('2018-05-02 00:00:00')

In [18]:
pd.Timestamp(dt.datetime(2018, 5, 2, 20, 10, 59))

Timestamp('2018-05-02 20:10:59')

## The pandas DateTimeIndex Object 

In [19]:
#  建置一個時間list，提供給DatetimeIndex做參數
#  注意到即使我們弄了2018/3/1還是會被解析為2018-03-01
dates = ['2018-1-1', '2018/3/1', '2018-5-1', '2018-10-1']
pd.DatetimeIndex(dates)

DatetimeIndex(['2018-01-01', '2018-03-01', '2018-05-01', '2018-10-01'], dtype='datetime64[ns]', freq=None)

In [20]:
type(pd.DatetimeIndex(dates))

pandas.core.indexes.datetimes.DatetimeIndex

In [21]:
date_index = pd.DatetimeIndex(dates)
#  設置一個list數值，數量等同上面的日期
values = [100, 200, 300, 400]
#  賦值series
pd.Series(values, index=date_index)

2018-01-01    100
2018-03-01    200
2018-05-01    300
2018-10-01    400
dtype: int64

## The pd.to_datetime() Method

In [22]:
#  利用to_datetime來轉成pandas的timestamp
pd.to_datetime('2018-5-3')

Timestamp('2018-05-03 00:00:00')

In [23]:
pd.to_datetime(['2018-01-01', '2018/01/02', '2019'])

DatetimeIndex(['2018-01-01', '2018-01-02', '2019-01-01'], dtype='datetime64[ns]', freq=None)

In [3]:
pd.to_datetime('2018-5-3 10:00:00 PM')

Timestamp('2018-05-03 22:00:00')

In [4]:
pd.to_datetime(dt.datetime(2018, 5, 3))

Timestamp('2018-05-03 00:00:00')

In [6]:
pd.to_datetime(['2018-5-3', '2018/10/4', 'May 3th,2018'])

DatetimeIndex(['2018-05-03', '2018-10-04', '2018-05-03'], dtype='datetime64[ns]', freq=None)

In [9]:
#  如果直接將這個list做為參數，pandas並不會自動的將之解析為日期
#  可以看到格式為object
times = pd.Series(['2018-5-3', '2018/10/4', 'May 3th,2018'])
times

0        2018-5-3
1       2018/10/4
2    May 3th,2018
dtype: object

In [10]:
#  可以發現到格式變更為datetime64
pd.to_datetime(times)

0   2018-05-03
1   2018-10-04
2   2018-05-03
dtype: datetime64[ns]

In [11]:
#  如果提供了一個錯誤的資訊要給to_datetime解析會造成錯誤
times = pd.Series(['2018-5-3', '2018/10/4', 'abc'])
times

0     2018-5-3
1    2018/10/4
2          abc
dtype: object

In [12]:
pd.to_datetime(times)

ValueError: Unknown string format

In [13]:
#  利用參數來略過錯誤，錯誤的部份回傳NaT
pd.to_datetime(times, errors='coerce')

0   2018-05-03
1   2018-10-04
2          NaT
dtype: datetime64[ns]

In [29]:
#  也可以解析unix time
import time
pd.to_datetime(time.time(), unit='s')

Timestamp('2018-05-03 11:11:10.270391')

## Create Range of Dates with pd.date_range() Method, Part1

In [31]:
#  最少要提供兩個參數，利用start,end來設置日期區間
pd.date_range(start='2018-5-3', end='2018-5-30')

DatetimeIndex(['2018-05-03', '2018-05-04', '2018-05-05', '2018-05-06',
               '2018-05-07', '2018-05-08', '2018-05-09', '2018-05-10',
               '2018-05-11', '2018-05-12', '2018-05-13', '2018-05-14',
               '2018-05-15', '2018-05-16', '2018-05-17', '2018-05-18',
               '2018-05-19', '2018-05-20', '2018-05-21', '2018-05-22',
               '2018-05-23', '2018-05-24', '2018-05-25', '2018-05-26',
               '2018-05-27', '2018-05-28', '2018-05-29', '2018-05-30'],
              dtype='datetime64[ns]', freq='D')

In [33]:
#  參數freq是指頻率，把它看成以什麼為單位做間隔，預設D為天
#  注意到回傳的是一個時間索引
pd.date_range(start='2018-5-3', end='2018-5-30', freq='D')

DatetimeIndex(['2018-05-03', '2018-05-04', '2018-05-05', '2018-05-06',
               '2018-05-07', '2018-05-08', '2018-05-09', '2018-05-10',
               '2018-05-11', '2018-05-12', '2018-05-13', '2018-05-14',
               '2018-05-15', '2018-05-16', '2018-05-17', '2018-05-18',
               '2018-05-19', '2018-05-20', '2018-05-21', '2018-05-22',
               '2018-05-23', '2018-05-24', '2018-05-25', '2018-05-26',
               '2018-05-27', '2018-05-28', '2018-05-29', '2018-05-30'],
              dtype='datetime64[ns]', freq='D')

In [34]:
times = pd.date_range(start='2018-5-1', end='2018-5-10', freq='D')
type(times)

pandas.core.indexes.datetimes.DatetimeIndex

In [35]:
times[0]

Timestamp('2018-05-03 00:00:00', freq='D')

In [36]:
#  設置為2D就代表每兩天一個間隔
pd.date_range(start='2018-5-1', end='2018-5-10', freq='2D')

DatetimeIndex(['2018-05-01', '2018-05-03', '2018-05-05', '2018-05-07',
               '2018-05-09'],
              dtype='datetime64[ns]', freq='2D')

In [37]:
#  設置為B代表工作日(就是非六日)
pd.date_range(start='2018-5-1', end='2018-5-10', freq='B')

DatetimeIndex(['2018-05-01', '2018-05-02', '2018-05-03', '2018-05-04',
               '2018-05-07', '2018-05-08', '2018-05-09', '2018-05-10'],
              dtype='datetime64[ns]', freq='B')

In [38]:
#  設置為W為週，每週的第一天，認定為禮拜天，所以只出現5/6
pd.date_range(start='2018-5-1', end='2018-5-10', freq='W')

DatetimeIndex(['2018-05-06'], dtype='datetime64[ns]', freq='W-SUN')

In [39]:
#  或指定週五來當第一天
pd.date_range(start='2018-5-1', end='2018-5-10', freq='W-FRI')

DatetimeIndex(['2018-05-04'], dtype='datetime64[ns]', freq='W-FRI')

In [40]:
#  H就代表著小時
pd.date_range(start='2018-5-1', end='2018-5-10', freq='H')

DatetimeIndex(['2018-05-01 00:00:00', '2018-05-01 01:00:00',
               '2018-05-01 02:00:00', '2018-05-01 03:00:00',
               '2018-05-01 04:00:00', '2018-05-01 05:00:00',
               '2018-05-01 06:00:00', '2018-05-01 07:00:00',
               '2018-05-01 08:00:00', '2018-05-01 09:00:00',
               ...
               '2018-05-09 15:00:00', '2018-05-09 16:00:00',
               '2018-05-09 17:00:00', '2018-05-09 18:00:00',
               '2018-05-09 19:00:00', '2018-05-09 20:00:00',
               '2018-05-09 21:00:00', '2018-05-09 22:00:00',
               '2018-05-09 23:00:00', '2018-05-10 00:00:00'],
              dtype='datetime64[ns]', length=217, freq='H')

In [41]:
#  H就代表著小時，設置6H，每六小時
pd.date_range(start='2018-5-1', end='2018-5-10', freq='6H')

DatetimeIndex(['2018-05-01 00:00:00', '2018-05-01 06:00:00',
               '2018-05-01 12:00:00', '2018-05-01 18:00:00',
               '2018-05-02 00:00:00', '2018-05-02 06:00:00',
               '2018-05-02 12:00:00', '2018-05-02 18:00:00',
               '2018-05-03 00:00:00', '2018-05-03 06:00:00',
               '2018-05-03 12:00:00', '2018-05-03 18:00:00',
               '2018-05-04 00:00:00', '2018-05-04 06:00:00',
               '2018-05-04 12:00:00', '2018-05-04 18:00:00',
               '2018-05-05 00:00:00', '2018-05-05 06:00:00',
               '2018-05-05 12:00:00', '2018-05-05 18:00:00',
               '2018-05-06 00:00:00', '2018-05-06 06:00:00',
               '2018-05-06 12:00:00', '2018-05-06 18:00:00',
               '2018-05-07 00:00:00', '2018-05-07 06:00:00',
               '2018-05-07 12:00:00', '2018-05-07 18:00:00',
               '2018-05-08 00:00:00', '2018-05-08 06:00:00',
               '2018-05-08 12:00:00', '2018-05-08 18:00:00',
               '2018-05-

In [42]:
#  M的話是每個月的最後一天，因為這區間沒有，所以沒有值
pd.date_range(start='2018-5-1', end='2018-5-10', freq='M')

DatetimeIndex([], dtype='datetime64[ns]', freq='M')

In [43]:
pd.date_range(start='2018-1-1', end='2018-12-31', freq='M')

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31', '2018-06-30', '2018-07-31', '2018-08-31',
               '2018-09-30', '2018-10-31', '2018-11-30', '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [44]:
#  加個S就可以變月的起始日
pd.date_range(start='2018-1-1', end='2018-12-31', freq='MS')

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01', '2018-06-01', '2018-07-01', '2018-08-01',
               '2018-09-01', '2018-10-01', '2018-11-01', '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

In [47]:
#  A的話即為每年的最後一天
pd.date_range(start='2018-1-1', end='2050-12-31', freq='A')

DatetimeIndex(['2018-12-31', '2019-12-31', '2020-12-31', '2021-12-31',
               '2022-12-31', '2023-12-31', '2024-12-31', '2025-12-31',
               '2026-12-31', '2027-12-31', '2028-12-31', '2029-12-31',
               '2030-12-31', '2031-12-31', '2032-12-31', '2033-12-31',
               '2034-12-31', '2035-12-31', '2036-12-31', '2037-12-31',
               '2038-12-31', '2039-12-31', '2040-12-31', '2041-12-31',
               '2042-12-31', '2043-12-31', '2044-12-31', '2045-12-31',
               '2046-12-31', '2047-12-31', '2048-12-31', '2049-12-31',
               '2050-12-31'],
              dtype='datetime64[ns]', freq='A-DEC')

In [48]:
#  一樣，加個S則為每年的第一天
pd.date_range(start='2018-1-1', end='2050-12-31', freq='AS')

DatetimeIndex(['2018-01-01', '2019-01-01', '2020-01-01', '2021-01-01',
               '2022-01-01', '2023-01-01', '2024-01-01', '2025-01-01',
               '2026-01-01', '2027-01-01', '2028-01-01', '2029-01-01',
               '2030-01-01', '2031-01-01', '2032-01-01', '2033-01-01',
               '2034-01-01', '2035-01-01', '2036-01-01', '2037-01-01',
               '2038-01-01', '2039-01-01', '2040-01-01', '2041-01-01',
               '2042-01-01', '2043-01-01', '2044-01-01', '2045-01-01',
               '2046-01-01', '2047-01-01', '2048-01-01', '2049-01-01',
               '2050-01-01'],
              dtype='datetime64[ns]', freq='AS-JAN')

## Create Range of Dates with pd.date_range() Method, Part2

In [50]:
#  利用periods來設置希望產生的日期『數量』
#  此例來看，從5/2開始要25個D
pd.date_range(start='2018-5-2', periods=25, freq="D")

DatetimeIndex(['2018-05-02', '2018-05-03', '2018-05-04', '2018-05-05',
               '2018-05-06', '2018-05-07', '2018-05-08', '2018-05-09',
               '2018-05-10', '2018-05-11', '2018-05-12', '2018-05-13',
               '2018-05-14', '2018-05-15', '2018-05-16', '2018-05-17',
               '2018-05-18', '2018-05-19', '2018-05-20', '2018-05-21',
               '2018-05-22', '2018-05-23', '2018-05-24', '2018-05-25',
               '2018-05-26'],
              dtype='datetime64[ns]', freq='D')

In [52]:
pd.date_range(start='2018-5-2', periods=25, freq="AS")

DatetimeIndex(['2019-01-01', '2020-01-01', '2021-01-01', '2022-01-01',
               '2023-01-01', '2024-01-01', '2025-01-01', '2026-01-01',
               '2027-01-01', '2028-01-01', '2029-01-01', '2030-01-01',
               '2031-01-01', '2032-01-01', '2033-01-01', '2034-01-01',
               '2035-01-01', '2036-01-01', '2037-01-01', '2038-01-01',
               '2039-01-01', '2040-01-01', '2041-01-01', '2042-01-01',
               '2043-01-01'],
              dtype='datetime64[ns]', freq='AS-JAN')

In [54]:
pd.date_range(start='2018-5-2', periods=25, freq="B")

DatetimeIndex(['2018-05-02', '2018-05-03', '2018-05-04', '2018-05-07',
               '2018-05-08', '2018-05-09', '2018-05-10', '2018-05-11',
               '2018-05-14', '2018-05-15', '2018-05-16', '2018-05-17',
               '2018-05-18', '2018-05-21', '2018-05-22', '2018-05-23',
               '2018-05-24', '2018-05-25', '2018-05-28', '2018-05-29',
               '2018-05-30', '2018-05-31', '2018-06-01', '2018-06-04',
               '2018-06-05'],
              dtype='datetime64[ns]', freq='B')

In [55]:
pd.date_range(start='2018-5-2', periods=25, freq="6H")

DatetimeIndex(['2018-05-02 00:00:00', '2018-05-02 06:00:00',
               '2018-05-02 12:00:00', '2018-05-02 18:00:00',
               '2018-05-03 00:00:00', '2018-05-03 06:00:00',
               '2018-05-03 12:00:00', '2018-05-03 18:00:00',
               '2018-05-04 00:00:00', '2018-05-04 06:00:00',
               '2018-05-04 12:00:00', '2018-05-04 18:00:00',
               '2018-05-05 00:00:00', '2018-05-05 06:00:00',
               '2018-05-05 12:00:00', '2018-05-05 18:00:00',
               '2018-05-06 00:00:00', '2018-05-06 06:00:00',
               '2018-05-06 12:00:00', '2018-05-06 18:00:00',
               '2018-05-07 00:00:00', '2018-05-07 06:00:00',
               '2018-05-07 12:00:00', '2018-05-07 18:00:00',
               '2018-05-08 00:00:00'],
              dtype='datetime64[ns]', freq='6H')

## Create Range of Dates with pd.date_range() Method, Part3

In [57]:
#  除了start，也可以利用end來向前推算日期
pd.date_range(end='2010-12-31', periods=20, freq="D")

DatetimeIndex(['2010-12-12', '2010-12-13', '2010-12-14', '2010-12-15',
               '2010-12-16', '2010-12-17', '2010-12-18', '2010-12-19',
               '2010-12-20', '2010-12-21', '2010-12-22', '2010-12-23',
               '2010-12-24', '2010-12-25', '2010-12-26', '2010-12-27',
               '2010-12-28', '2010-12-29', '2010-12-30', '2010-12-31'],
              dtype='datetime64[ns]', freq='D')

In [58]:
pd.date_range(end='2010-12-31', periods=20, freq="B")

DatetimeIndex(['2010-12-06', '2010-12-07', '2010-12-08', '2010-12-09',
               '2010-12-10', '2010-12-13', '2010-12-14', '2010-12-15',
               '2010-12-16', '2010-12-17', '2010-12-20', '2010-12-21',
               '2010-12-22', '2010-12-23', '2010-12-24', '2010-12-27',
               '2010-12-28', '2010-12-29', '2010-12-30', '2010-12-31'],
              dtype='datetime64[ns]', freq='B')

## The .dt Accessor

In [76]:
dates = pd.date_range(start='2018-1-1', end='2018-12-31', freq='24D')

In [62]:
#  利用區間取得需求日期，接著將資料置入Series
#  可以看的出來格式皆為datetime64
ser = pd.Series(dates)
ser.head(5)

0   2018-01-01
1   2018-01-25
2   2018-02-18
3   2018-03-14
4   2018-04-07
dtype: datetime64[ns]

In [65]:
#  但是它沒有相關屬性可以直接操作
ser.day()

AttributeError: 'Series' object has no attribute 'day'

In [67]:
#  必需透過.dt來做中間的界接
#  取得日期
ser.dt.day
#  取得月份
#  ser.dt.month
#  取得年
#  ser.dt.year

0      1
1     25
2     18
3     14
4      7
5      1
6     25
7     18
8     12
9      5
10    29
11    22
12    16
13     9
14     3
15    27
dtype: int64

In [71]:
#  也可以看星期幾
ser.dt.weekday_name

0        Monday
1      Thursday
2        Sunday
3     Wednesday
4      Saturday
5       Tuesday
6        Friday
7        Monday
8      Thursday
9        Sunday
10    Wednesday
11     Saturday
12      Tuesday
13       Friday
14       Monday
15     Thursday
dtype: object

In [72]:
#  也可以產生遮罩，下例是是否為每一季的開始
ser.dt.is_quarter_start

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
dtype: bool

In [74]:
#  是否為每一季的開始
mark = ser.dt.is_quarter_start
ser[mark]

0   2018-01-01
dtype: datetime64[ns]

In [None]:
#  是否為每月的最後一天

In [75]:
mark = ser.dt.is_month_end
ser[mark]

Series([], dtype: datetime64[ns])

## Install pandas-datareader Library

In [2]:
!pip install pandas-datareader



You are using pip version 9.0.1, however version 10.0.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


## Import Financial Data Set with pandas_datareader Library
目前不少data_source都失效，建議至官方文件說明處了解『[官方文件](https://pydata.github.io/pandas-datareader/devel/remote_data.html)』

In [3]:
import pandas as pd
import datetime as dt
from pandas_datareader import data

In [27]:
company = 'F'  #  微軟的股票代碼
start = '2018-1-1'
end = '2018-5-1'
#  data_source指資料來源
data.DataReader(name=company,data_source='iex', start=start, end=end)
#  回傳了開盤，最高、最低、收盤、交易量

1y


Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,12.0591,12.1939,12.0398,12.1939,20773320
2018-01-03,12.2132,12.3288,12.2036,12.2903,29765638
2018-01-04,12.3095,12.5599,12.2999,12.5022,37478200
2018-01-05,12.5792,12.7333,12.5599,12.7141,46121873
2018-01-08,12.7237,12.7333,12.6274,12.6659,33828330
2018-01-09,12.6948,12.7333,12.5985,12.5985,27924109
2018-01-10,12.5792,12.6553,12.4829,12.5503,56517139
2018-01-11,12.5407,12.7141,12.5214,12.6755,28342293
2018-01-12,12.6177,12.8007,12.6177,12.7430,56979186
2018-01-16,12.8200,12.9837,12.5311,12.6177,53961375


In [28]:
stocks = data.DataReader(name=company,data_source='iex', start=start, end=end)
stocks.head()

1y


Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,12.0591,12.1939,12.0398,12.1939,20773320
2018-01-03,12.2132,12.3288,12.2036,12.2903,29765638
2018-01-04,12.3095,12.5599,12.2999,12.5022,37478200
2018-01-05,12.5792,12.7333,12.5599,12.7141,46121873
2018-01-08,12.7237,12.7333,12.6274,12.6659,33828330


In [22]:
# stocks.values
# stocks.columns
# stocks.index
stocks.axes  #  回傳索引與column屬性

[Index(['2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-01-08',
        '2018-01-09', '2018-01-10', '2018-01-11', '2018-01-12', '2018-01-16',
        '2018-01-17', '2018-01-18', '2018-01-19', '2018-01-22', '2018-01-23',
        '2018-01-24', '2018-01-25', '2018-01-26', '2018-01-29', '2018-01-30',
        '2018-01-31', '2018-02-01', '2018-02-02', '2018-02-05', '2018-02-06',
        '2018-02-07', '2018-02-08', '2018-02-09', '2018-02-12', '2018-02-13',
        '2018-02-14', '2018-02-15', '2018-02-16', '2018-02-20', '2018-02-21',
        '2018-02-22', '2018-02-23', '2018-02-26', '2018-02-27', '2018-02-28',
        '2018-03-01', '2018-03-02', '2018-03-05', '2018-03-06', '2018-03-07',
        '2018-03-08', '2018-03-09', '2018-03-12', '2018-03-13', '2018-03-14',
        '2018-03-15', '2018-03-16', '2018-03-19', '2018-03-20', '2018-03-21',
        '2018-03-22', '2018-03-23', '2018-03-26', '2018-03-27', '2018-03-28',
        '2018-03-29', '2018-04-02', '2018-04-03', '2018-04-04', 

## Selecting from a DataFrame with a DateTimeIndex

In [None]:
stocks = data.DataReader(name=company,data_source='iex', start=start, end=end)
stocks.head()

In [29]:
#  一樣可以利用loc、iloc來做資料提取的動作
stocks.loc[:, 'open'].head()

date
2018-01-02    12.0591
2018-01-03    12.2132
2018-01-04    12.3095
2018-01-05    12.5792
2018-01-08    12.7237
Name: open, dtype: float64

In [30]:
stocks.loc['2018-05-01', :]

open            11.25
high            11.35
low             11.10
close           11.26
volume    61430446.00
Name: 2018-05-01, dtype: float64

In [31]:
stocks.iloc[1:5, :]

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-03,12.2132,12.3288,12.2036,12.2903,29765638
2018-01-04,12.3095,12.5599,12.2999,12.5022,37478200
2018-01-05,12.5792,12.7333,12.5599,12.7141,46121873
2018-01-08,12.7237,12.7333,12.6274,12.6659,33828330


In [34]:
#  利用索引區間查詢
stocks.loc['2018-03-01':'2018-03-10', :]

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-03-01,10.509,10.5485,10.065,10.1538,75841414
2018-03-02,10.1044,10.282,10.0058,10.2623,60491864
2018-03-05,10.1735,10.4893,10.1636,10.4399,44021329
2018-03-06,10.509,10.5386,10.3314,10.4893,30978946
2018-03-07,10.3709,10.4991,10.2919,10.4893,30046598
2018-03-08,10.509,10.5386,10.3413,10.4695,26947958
2018-03-09,10.4893,10.5879,10.4301,10.5879,26684375


In [35]:
#  設置一個時間區間
mybirths = pd.date_range(start='1982-09-20', end='2018-09-20', freq=pd.DateOffset(years=1))
mybirths

DatetimeIndex(['1982-09-20', '1983-09-20', '1984-09-20', '1985-09-20',
               '1986-09-20', '1987-09-20', '1988-09-20', '1989-09-20',
               '1990-09-20', '1991-09-20', '1992-09-20', '1993-09-20',
               '1994-09-20', '1995-09-20', '1996-09-20', '1997-09-20',
               '1998-09-20', '1999-09-20', '2000-09-20', '2001-09-20',
               '2002-09-20', '2003-09-20', '2004-09-20', '2005-09-20',
               '2006-09-20', '2007-09-20', '2008-09-20', '2009-09-20',
               '2010-09-20', '2011-09-20', '2012-09-20', '2013-09-20',
               '2014-09-20', '2015-09-20', '2016-09-20', '2017-09-20',
               '2018-09-20'],
              dtype='datetime64[ns]', freq='<DateOffset: kwds={'years': 1}>')

In [37]:
mask = stocks.index.isin(mybirths)
mask

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False], dtype=bool)

In [38]:
#  因為剛好區間沒有資料，造成回傳空的
stocks.loc[mask]

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


## Timestamp Object Attributes

In [None]:
stocks = data.DataReader(name=company,data_source='iex', start=start, end=end)
stocks.head()

In [60]:
#  從資料內取得一個索引
stocks.index

Index(['2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-01-08',
       '2018-01-09', '2018-01-10', '2018-01-11', '2018-01-12', '2018-01-16',
       '2018-01-17', '2018-01-18', '2018-01-19', '2018-01-22', '2018-01-23',
       '2018-01-24', '2018-01-25', '2018-01-26', '2018-01-29', '2018-01-30',
       '2018-01-31', '2018-02-01', '2018-02-02', '2018-02-05', '2018-02-06',
       '2018-02-07', '2018-02-08', '2018-02-09', '2018-02-12', '2018-02-13',
       '2018-02-14', '2018-02-15', '2018-02-16', '2018-02-20', '2018-02-21',
       '2018-02-22', '2018-02-23', '2018-02-26', '2018-02-27', '2018-02-28',
       '2018-03-01', '2018-03-02', '2018-03-05', '2018-03-06', '2018-03-07',
       '2018-03-08', '2018-03-09', '2018-03-12', '2018-03-13', '2018-03-14',
       '2018-03-15', '2018-03-16', '2018-03-19', '2018-03-20', '2018-03-21',
       '2018-03-22', '2018-03-23', '2018-03-26', '2018-03-27', '2018-03-28',
       '2018-03-29', '2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',

In [30]:
someday = stocks.index[0]
#  回傳似乎不再是timestamp，而是str，故無法操作timestamp的相關函式
type(someday)

str

In [31]:
#  自己轉型也可以
someday = pd.Timestamp(someday)

In [32]:
someday.is_month_start

False

In [33]:
#  利用insert來插入新的欄
stocks.insert(0, 'Day of week', 1)

In [57]:
stocks.head()

Unnamed: 0_level_0,Day of week,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,1,12.0591,12.1939,12.0398,12.1939,20773320
2018-01-03,1,12.2132,12.3288,12.2036,12.2903,29765638
2018-01-04,1,12.3095,12.5599,12.2999,12.5022,37478200
2018-01-05,1,12.5792,12.7333,12.5599,12.7141,46121873
2018-01-08,1,12.7237,12.7333,12.6274,12.6659,33828330


## The .truncate() Method

In [6]:
#  利用truncate取得區間內的資料
stocks.truncate(before='2018-04-01', after='2018-04-10')

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-04-02,10.9136,10.9432,10.5583,10.7162,43598094
2018-04-03,10.8642,11.032,10.7557,11.0024,42523917
2018-04-04,10.7261,11.2096,10.657,11.18,44834639
2018-04-05,11.1899,11.2293,11.0813,11.1997,28755606
2018-04-06,11.1307,11.1997,10.9234,11.032,31920686
2018-04-09,11.1011,11.2293,11.0517,11.1011,36462658
2018-04-10,11.2885,11.3971,11.2589,11.2984,44005015


## pd.DateOffset Objects

In [4]:
stocks = data.DataReader('GOOG', data_source='iex', start='2018-01-01', end=dt.datetime.now())
stocks.head()

1y


Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,1048.34,1066.94,1045.23,1065.0,1237564
2018-01-03,1064.31,1086.29,1063.21,1082.48,1430170
2018-01-04,1088.0,1093.57,1084.0,1086.4,1004605
2018-01-05,1094.0,1104.25,1092.0,1102.23,1279123
2018-01-08,1102.23,1111.27,1101.62,1106.94,1047603


In [5]:
stocks.index

Index(['2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-01-08',
       '2018-01-09', '2018-01-10', '2018-01-11', '2018-01-12', '2018-01-16',
       '2018-01-17', '2018-01-18', '2018-01-19', '2018-01-22', '2018-01-23',
       '2018-01-24', '2018-01-25', '2018-01-26', '2018-01-29', '2018-01-30',
       '2018-01-31', '2018-02-01', '2018-02-02', '2018-02-05', '2018-02-06',
       '2018-02-07', '2018-02-08', '2018-02-09', '2018-02-12', '2018-02-13',
       '2018-02-14', '2018-02-15', '2018-02-16', '2018-02-20', '2018-02-21',
       '2018-02-22', '2018-02-23', '2018-02-26', '2018-02-27', '2018-02-28',
       '2018-03-01', '2018-03-02', '2018-03-05', '2018-03-06', '2018-03-07',
       '2018-03-08', '2018-03-09', '2018-03-12', '2018-03-13', '2018-03-14',
       '2018-03-15', '2018-03-16', '2018-03-19', '2018-03-20', '2018-03-21',
       '2018-03-22', '2018-03-23', '2018-03-26', '2018-03-27', '2018-03-28',
       '2018-03-29', '2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',

In [7]:
#  因為index回傳已經變為str，故要先以to_datetime做轉型再做後續處理
#  透過dataoffset可以發現，我們把日期通通平移了五天
#  參數也可以是weeks,months,years,hours
pd.to_datetime(stocks.index) + pd.DateOffset(days = 5)

DatetimeIndex(['2018-01-07', '2018-01-08', '2018-01-09', '2018-01-10',
               '2018-01-13', '2018-01-14', '2018-01-15', '2018-01-16',
               '2018-01-17', '2018-01-21', '2018-01-22', '2018-01-23',
               '2018-01-24', '2018-01-27', '2018-01-28', '2018-01-29',
               '2018-01-30', '2018-01-31', '2018-02-03', '2018-02-04',
               '2018-02-05', '2018-02-06', '2018-02-07', '2018-02-10',
               '2018-02-11', '2018-02-12', '2018-02-13', '2018-02-14',
               '2018-02-17', '2018-02-18', '2018-02-19', '2018-02-20',
               '2018-02-21', '2018-02-25', '2018-02-26', '2018-02-27',
               '2018-02-28', '2018-03-03', '2018-03-04', '2018-03-05',
               '2018-03-06', '2018-03-07', '2018-03-10', '2018-03-11',
               '2018-03-12', '2018-03-13', '2018-03-14', '2018-03-17',
               '2018-03-18', '2018-03-19', '2018-03-20', '2018-03-21',
               '2018-03-24', '2018-03-25', '2018-03-26', '2018-03-27',
      

In [9]:
#  不僅是加，也可以減
pd.to_datetime(stocks.index) - pd.DateOffset(weeks = 2)

DatetimeIndex(['2017-12-19', '2017-12-20', '2017-12-21', '2017-12-22',
               '2017-12-25', '2017-12-26', '2017-12-27', '2017-12-28',
               '2017-12-29', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-08', '2018-01-09', '2018-01-10',
               '2018-01-11', '2018-01-12', '2018-01-15', '2018-01-16',
               '2018-01-17', '2018-01-18', '2018-01-19', '2018-01-22',
               '2018-01-23', '2018-01-24', '2018-01-25', '2018-01-26',
               '2018-01-29', '2018-01-30', '2018-01-31', '2018-02-01',
               '2018-02-02', '2018-02-06', '2018-02-07', '2018-02-08',
               '2018-02-09', '2018-02-12', '2018-02-13', '2018-02-14',
               '2018-02-15', '2018-02-16', '2018-02-19', '2018-02-20',
               '2018-02-21', '2018-02-22', '2018-02-23', '2018-02-26',
               '2018-02-27', '2018-02-28', '2018-03-01', '2018-03-02',
               '2018-03-05', '2018-03-06', '2018-03-07', '2018-03-08',
      

In [10]:
#  參數也可以是複合的
pd.to_datetime(stocks.index) + pd.DateOffset(days = 5, years=1)

DatetimeIndex(['2019-01-07', '2019-01-08', '2019-01-09', '2019-01-10',
               '2019-01-13', '2019-01-14', '2019-01-15', '2019-01-16',
               '2019-01-17', '2019-01-21', '2019-01-22', '2019-01-23',
               '2019-01-24', '2019-01-27', '2019-01-28', '2019-01-29',
               '2019-01-30', '2019-01-31', '2019-02-03', '2019-02-04',
               '2019-02-05', '2019-02-06', '2019-02-07', '2019-02-10',
               '2019-02-11', '2019-02-12', '2019-02-13', '2019-02-14',
               '2019-02-17', '2019-02-18', '2019-02-19', '2019-02-20',
               '2019-02-21', '2019-02-25', '2019-02-26', '2019-02-27',
               '2019-02-28', '2019-03-03', '2019-03-04', '2019-03-05',
               '2019-03-06', '2019-03-07', '2019-03-10', '2019-03-11',
               '2019-03-12', '2019-03-13', '2019-03-14', '2019-03-17',
               '2019-03-18', '2019-03-19', '2019-03-20', '2019-03-21',
               '2019-03-24', '2019-03-25', '2019-03-26', '2019-03-27',
      

## More Fun with pd.DateOffset Objects

In [11]:
import pandas as pd
import datetime as dt
from pandas_datareader import data

In [None]:
company = 'F'  #  微軟的股票代碼
start = '2018-1-1'
end = '2018-5-1'
#  data_source指資料來源
data.DataReader(name=company,data_source='iex', start=start, end=end)

In [12]:
stocks.head()

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,1048.34,1066.94,1045.23,1065.0,1237564
2018-01-03,1064.31,1086.29,1063.21,1082.48,1430170
2018-01-04,1088.0,1093.57,1084.0,1086.4,1004605
2018-01-05,1094.0,1104.25,1092.0,1102.23,1279123
2018-01-08,1102.23,1111.27,1101.62,1106.94,1047603


In [13]:
#  pandas本身也存在著日期偏移的函式
#  舉例來說，下面是一個計算月最後一天的函式
pd.tseries.offsets.MonthEnd()

<MonthEnd>

In [14]:
#  搭配加號使用可以發現我們把日期四捨五入到月底
#  但要注意的是，如果剛好是月底最後一天的話，它會自動往下個月去計算
#  舉例來說，1/31會計算為2/28
pd.to_datetime(stocks.index) + pd.tseries.offsets.MonthEnd()

DatetimeIndex(['2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-03-31',
               '2018-03-31', '2018-03-31', '2018-03-31', '2018-03-31',
               '2018-03-31', '2018-03-31', '2018-03-31', '2018-03-31',
               '2018-03-31', '2018-03-31', '2018-03-31', '2018-03-31',
               '2018-03-31', '2018-03-31', '2018-03-31', '2018-03-31',
      

In [15]:
#  配合減號使用的話會發現，往上一個月去計算月底
pd.to_datetime(stocks.index) - pd.tseries.offsets.MonthEnd()

DatetimeIndex(['2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-01-31', '2018-01-31', '2018-01-31', '2018-01-31',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
               '2018-02-28', '2018-02-28', '2018-02-28', '2018-02-28',
      

In [16]:
pd.to_datetime(stocks.index) + pd.tseries.offsets.MonthBegin()

DatetimeIndex(['2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-04-01', '2018-04-01', '2018-04-01', '2018-04-01',
               '2018-04-01', '2018-04-01', '2018-04-01', '2018-04-01',
               '2018-04-01', '2018-04-01', '2018-04-01', '2018-04-01',
               '2018-04-01', '2018-04-01', '2018-04-01', '2018-04-01',
      

In [17]:
pd.to_datetime(stocks.index) - pd.tseries.offsets.MonthBegin()

DatetimeIndex(['2018-01-01', '2018-01-01', '2018-01-01', '2018-01-01',
               '2018-01-01', '2018-01-01', '2018-01-01', '2018-01-01',
               '2018-01-01', '2018-01-01', '2018-01-01', '2018-01-01',
               '2018-01-01', '2018-01-01', '2018-01-01', '2018-01-01',
               '2018-01-01', '2018-01-01', '2018-01-01', '2018-01-01',
               '2018-01-01', '2018-01-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-02-01', '2018-02-01', '2018-02-01',
               '2018-02-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
      

In [19]:
#  相關的函式很多，可參閱官方文件
#  QuarterEnd(季結束)，QuarterBegin(季開始)
pd.to_datetime(stocks.index) + pd.tseries.offsets.QuarterBegin()
#  pd.to_datetime(stocks.index) - pd.tseries.offsets.QuarterBegin()

DatetimeIndex(['2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-03-01', '2018-03-01', '2018-03-01', '2018-03-01',
               '2018-06-01', '2018-06-01', '2018-06-01', '2018-06-01',
               '2018-06-01', '2018-06-01', '2018-06-01', '2018-06-01',
               '2018-06-01', '2018-06-01', '2018-06-01', '2018-06-01',
               '2018-06-01', '2018-06-01', '2018-06-01', '2018-06-01',
      

In [20]:
pd.to_datetime(stocks.index) + pd.tseries.offsets.YearEnd()

DatetimeIndex(['2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
               '2018-12-31', '2018-12-31', '2018-12-31', '2018-12-31',
      

In [21]:
pd.to_datetime(stocks.index) - pd.tseries.offsets.YearEnd()

DatetimeIndex(['2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
               '2017-12-31', '2017-12-31', '2017-12-31', '2017-12-31',
      

## The Timedelta Object

In [1]:
import pandas as pd
import datetime as dt

In [8]:
#  設置兩個timestamp變數
timeA = pd.Timestamp('2018-05-14')
timeB = pd.Timestamp('2018-05-01')

In [9]:
#  直接兩個timestamp物件相減也可以計算兩日期的間隔
timeA - timeB

Timedelta('13 days 00:00:00')

In [17]:
timeA = pd.Timestamp('2018-05-14 08:00:00 AM')
timeB = pd.Timestamp('2018-05-01 05:00:00 PM')

In [12]:
#  如果時間上有時分秒也會列入計算
timeA - timeB

Timedelta('12 days 15:00:00')

In [13]:
#  資料的型別不是timestamp 而是timedelta
type(timeA - timeB)

pandas._libs.tslib.Timedelta

In [14]:
#  小的日期減大的日期也會執行，回傳為負日期
timeB-timeA

Timedelta('-13 days +09:00:00')

In [15]:
#  Timedelta與TimeOffset觀念相同
pd.Timedelta(days=3)

Timedelta('3 days 00:00:00')

In [18]:
timeA + pd.Timedelta(days=3)

Timestamp('2018-05-17 08:00:00')

In [20]:
#  也可以很口語化的設置，但建議上是以上面的方式來設置較為標準
pd.Timedelta('2 days 5 hours 12 minutes')

Timedelta('2 days 05:12:00')

## Timedeltas in Dataset

In [29]:
#  這是一個虛擬資料，上面有訂單日與運送日
pd.read_csv('ecommerce.csv').head()

Unnamed: 0,ID,order_date,delivery_date
0,1,5/24/98,2/5/99
1,2,4/22/92,3/6/98
2,4,2/10/91,8/26/92
3,5,7/21/92,11/20/97
4,7,9/2/93,6/10/98


In [30]:
#  首先我們要將id設置為索引
#  並且讓日期確定是日期格式
shipping = pd.read_csv('ecommerce.csv', index_col='ID', parse_dates=['order_date', 'delivery_date'])
shipping.head()

Unnamed: 0_level_0,order_date,delivery_date
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1998-05-24,1999-02-05
2,1992-04-22,1998-03-06
4,1991-02-10,1992-08-26
5,1992-07-21,1997-11-20
7,1993-09-02,1998-06-10


In [31]:
#  計算訂單花多少時間出貨，回傳timedelta格式
shipping['delivery_time'] = shipping['delivery_date']- shipping['order_date']
shipping.head()

Unnamed: 0_level_0,order_date,delivery_date,delivery_time
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1998-05-24,1999-02-05,257 days
2,1992-04-22,1998-03-06,2144 days
4,1991-02-10,1992-08-26,563 days
5,1992-07-21,1997-11-20,1948 days
7,1993-09-02,1998-06-10,1742 days


In [32]:
#  以出貨減間隔時間得到訂單時間，這時候的格式為datetime
shipping['delivery_date'] - shipping['delivery_time']

ID
1     1998-05-24
2     1992-04-22
4     1991-02-10
5     1992-07-21
7     1993-09-02
8     1993-06-10
9     1990-01-25
10    1992-02-23
11    1996-07-12
18    1995-06-18
19    1998-05-10
20    1992-10-17
23    1992-05-30
26    1996-04-11
30    1998-10-22
32    1990-01-20
33    1994-09-21
35    1993-09-10
36    1990-05-15
39    1990-03-26
41    1992-02-06
46    1995-09-05
50    1991-05-03
52    1994-09-02
53    1995-11-29
54    1996-08-07
58    1995-02-11
59    1995-09-29
60    1993-02-14
63    1990-12-22
         ...    
932   1997-07-25
934   1995-05-22
935   1990-09-26
938   1993-03-24
939   1998-10-01
942   1992-04-14
943   1991-01-30
945   1992-10-27
946   1991-07-02
947   1991-06-18
949   1991-10-07
951   1991-10-02
953   1991-09-26
954   1993-08-08
956   1995-08-23
957   1994-10-01
958   1990-04-26
969   1996-09-24
972   1990-02-07
975   1997-06-18
981   1997-01-31
983   1994-12-30
984   1991-07-25
985   1995-07-26
986   1990-12-10
990   1991-06-24
991   1991-09-09
993   1990-

In [33]:
shipping.dtypes

order_date        datetime64[ns]
delivery_date     datetime64[ns]
delivery_time    timedelta64[ns]
dtype: object

In [34]:
#  也可以快速的以新增的欄位做遮罩
mask = shipping['delivery_time'] > '365 days'

In [35]:
shipping[mask]

Unnamed: 0_level_0,order_date,delivery_date,delivery_time
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,1992-04-22,1998-03-06,2144 days
4,1991-02-10,1992-08-26,563 days
5,1992-07-21,1997-11-20,1948 days
7,1993-09-02,1998-06-10,1742 days
9,1990-01-25,1994-10-02,1711 days
10,1992-02-23,1998-12-30,2502 days
11,1996-07-12,1997-07-14,367 days
18,1995-06-18,1997-10-13,848 days
20,1992-10-17,1998-10-06,2180 days
23,1992-05-30,1999-08-15,2633 days


In [36]:
shipping['delivery_time'].max()

Timedelta('3583 days 00:00:00')