In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

“Dữ liệu chuỗi thời gian là một dạng dữ liệu có cấu trúc quan trọng trong nhiều lĩnh vực khác nhau, chẳng hạn như tài chính, kinh tế, sinh thái học, khoa học thần kinh và vật lý. Bất cứ thứ gì được quan sát hoặc đo lường ở nhiều thời điểm sẽ tạo thành một chuỗi thời gian. Nhiều chuỗi thời gian có tần suất cố định, có nghĩa là các điểm dữ liệu xảy ra đều đặn theo một số quy tắc, chẳng hạn như cứ sau 15 giây, 5 phút một lần hoặc một lần mỗi tháng. Chuỗi thời gian cũng có thể không đều mà không có một đơn vị thời gian cố định hoặc sự chênh lệch giữa các đơn vị. Cách bạn đánh dấu và tham chiếu đến dữ liệu chuỗi thời gian tùy thuộc vào ứng dụng và bạn có thể có một trong những điều sau: ”


### 11.1 Date and Time Data Types and Tools

In [3]:
from datetime import datetime

In [4]:
now = datetime.now()

In [6]:
now

datetime.datetime(2021, 5, 18, 14, 30, 18, 393027)

In [7]:
now.year, now.month, now.day

(2021, 5, 18)

Datetime lưu trữ cả ngày và giờ tính đến từng micro giây. `timedelta()` đại diện cho sự khác biệt về thời gian giữa hai đối tượng datetime:

In [29]:
delta = datetime(2021,5,17,17) - datetime(2021,5,15,15,30) 

In [30]:
delta

datetime.timedelta(days=2, seconds=5400)

In [31]:
delta.days

2

In [32]:
delta.seconds

5400

Bạnk có thể cộng hoặc trừ 1 `timedelta()` hoặc `multiple()` để dịch chuyển sang một time mới

In [41]:
from datetime import timedelta
start = datetime(2021,5,16,8,30)

In [42]:
start + timedelta(1,8*60*60)

datetime.datetime(2021, 5, 17, 16, 30)

#### Convert Between String and Datetime

Bạn có thể chuyển `datetime()` Object và pandas TimeStamp Object, tôi sẽ giới thiệu sau nhưng giờ tôi muốn giới thiệu về `string` trước, bằng các sử dụng `strftime()`

In [52]:
stamp = datetime(2011,1,15,23,20)

In [53]:
str(stamp)

'2011-01-15 23:20:00'

In [55]:
stamp.strftime('%Y-%m-%d-%H-%I-%M-%W')

'2011-01-15-23-11-20-02'

**Note**: `%F` shortcut for %Y-%m-%d


Bạn có thể sử dụng những same format code chuyển từ string to date như `datetime.strptime`

In [56]:
value = '2011-01-03'

In [58]:
datetime.strptime(value,'%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

In [60]:
datetime(2011,1,3,0,0)

datetime.datetime(2011, 1, 3, 0, 0)

In [62]:
datestrs = ['27/08/2001','20/10/1999']

In [65]:
[datetime.strptime(x,'%d/%m/%Y') for x in datestrs]

[datetime.datetime(2001, 8, 27, 0, 0), datetime.datetime(1999, 10, 20, 0, 0)]

`datetime.strptime()` là 1 cách tốt để chuyển với cái format định sẵn. Tuy nhiên, nó có vẻ a chút khó chị khi có viết một format spec each time, đặc biệt nấht chug date formats. Trong trường hợp này bạn có thể sử dụng `parser.parse()` trong **third-party** deteutil package

In [66]:
from dateutil.parser import parse
parse('2001-08-27')

datetime.datetime(2001, 8, 27, 0, 0)

Dateutil có khả năng phân tích cú pháp hầu hết các đại diện ngày tháng mà con người có thể hiểu được:"


In [67]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

Có thể thêm date first để biết rằng first có thể là ngày

In [74]:
parse('6/12/2001',dayfirst=True)

datetime.datetime(2001, 12, 6, 0, 0)

**Pandas** thường làm việc với array của dates, liệu sử dụng như một chiều index hoặc một cột trong 1 DataFrame. `to_datetime` method `parses` rất nhiều loại date định dang. Những dạng format như ISO 8601 có thể xử lý rất nhanh 

In [78]:
datestrs = ['2011-07-06 12:00:00','2012-8-27 00:00:00']

In [79]:
pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2012-08-27 00:00:00'], dtype='datetime64[ns]', freq=None)

Nó cũng xử lý những giá trị được coi là mising 

In [80]:
idx = pd.to_datetime(datestrs+ [None])

In [81]:
idx

DatetimeIndex(['2011-07-06 12:00:00', '2012-08-27 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [82]:
pd.isnull(idx)

array([False, False,  True])

**Note**: *NaT* (Not A Time) được coi là null trong timestamp.

### 11.2 Time Series Basic
Cơ bản của các loại timeseríe object trong pandas là 1 Series indexed by `timestamps`, nó thường đại diện bên ngoài pandas như python strings hoặc datetime object

In [84]:
from datetime import datetime
dates = [datetime(2021,2,3),datetime(2021,2,10)
        ,datetime(2021,2,11),datetime(2021,2,12)
        ,datetime(2021,2,13),datetime(2021,2,14)]

In [85]:
ts = pd.Series(np.random.randn(6),dates)

In [86]:
ts

2021-02-03    0.913441
2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
2021-02-14    1.035378
dtype: float64

Bên sâu, `datetime` object có put trong 1 DateTime Index

In [87]:
ts.index

DatetimeIndex(['2021-02-03', '2021-02-10', '2021-02-11', '2021-02-12',
               '2021-02-13', '2021-02-14'],
              dtype='datetime64[ns]', freq=None)

Như các Series khác, những phép biến đổi thông thường giữa các indexed time sẻies automatically align on the dates

In [88]:
ts + ts[::2]

2021-02-03    1.826881
2021-02-10         NaN
2021-02-11    0.705338
2021-02-12         NaN
2021-02-13   -2.592895
2021-02-14         NaN
dtype: float64

In [89]:
ts[::2]

2021-02-03    0.913441
2021-02-11    0.352669
2021-02-13   -1.296447
dtype: float64

`pandas stores` **timestamps** sử dụng NumPy's `datetime64` data type tại nano giây 

In [90]:
ts.index.dtype

dtype('<M8[ns]')

#### Index Selection Subsetting

Time series có như là other pandas. Series khi bạn là indexing và selecign data dựa trên label

In [92]:
stamp = ts.index[2]

In [93]:
stamp

Timestamp('2021-02-11 00:00:00')

In [94]:
ts[stamp]

0.35266877060914165

như một thông thường, bạn cũng có thể truyênf 1 string rằng như là 1 date

In [96]:
ts

2021-02-03    0.913441
2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
2021-02-14    1.035378
dtype: float64

In [97]:
ts['20210214']

1.0353779371328702

Đối với chuỗi thời gian dài hơn, có thể chuyển qua một năm hoặc chỉ một năm và tháng để dễ dàng chọn các phần dữ liệu:”


In [98]:
long_ts = pd.Series(np.random.randn(1000),
                   index = pd.date_range('1/1/2000'
                                         ,periods=1000))

In [99]:
long_ts

2000-01-01   -0.072521
2000-01-02    0.317359
2000-01-03   -0.476170
2000-01-04    0.274247
2000-01-05    0.763832
                ...   
2002-09-22   -0.420344
2002-09-23   -0.953997
2002-09-24    0.138743
2002-09-25    1.034525
2002-09-26   -1.157927
Freq: D, Length: 1000, dtype: float64

In [100]:
long_ts['2001']

2001-01-01   -0.764219
2001-01-02    1.129377
2001-01-03   -0.126941
2001-01-04    1.073938
2001-01-05   -1.131700
                ...   
2001-12-27    1.610636
2001-12-28   -2.110037
2001-12-29   -0.070793
2001-12-30    0.260430
2001-12-31   -0.011827
Freq: D, Length: 365, dtype: float64

In [101]:
long_ts['2001-05']

2001-05-01   -0.288522
2001-05-02    0.607232
2001-05-03    0.555163
2001-05-04   -0.505052
2001-05-05   -0.093431
2001-05-06    1.358805
2001-05-07    0.723014
2001-05-08    1.293868
2001-05-09    1.290240
2001-05-10    0.886800
2001-05-11   -0.423131
2001-05-12   -0.555110
2001-05-13    0.470747
2001-05-14    0.003254
2001-05-15   -0.721068
2001-05-16    0.107157
2001-05-17   -1.070031
2001-05-18   -0.615449
2001-05-19   -0.135944
2001-05-20   -1.318536
2001-05-21   -0.624341
2001-05-22    1.814932
2001-05-23   -0.660165
2001-05-24   -1.093306
2001-05-25    0.504009
2001-05-26    0.191580
2001-05-27    1.917041
2001-05-28   -1.097004
2001-05-29    0.313922
2001-05-30   -0.195264
2001-05-31   -0.015325
Freq: D, dtype: float64

cắt với `datime()` 

In [102]:
ts

2021-02-03    0.913441
2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
2021-02-14    1.035378
dtype: float64

In [105]:
ts[datetime(2021,2,10):]

2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
2021-02-14    1.035378
dtype: float64

Bởi vì hầu hết time series là sắp xếp theo thú tựu thời gian bạn có thể cắt với `timestamps` không bao gồm trong 1 time sẻies 

In [106]:
ts

2021-02-03    0.913441
2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
2021-02-14    1.035378
dtype: float64

In [107]:
ts["2021/02/10":"2021/02/13"]

2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
dtype: float64

Như trước đây, bạn có thể bát các loạ string date, ở dateim hoặc time-stamp. Nhứ rằng cắt trong các mảng này thì k sửa đc nó là k coppy gì hết nhé

Có một phương thức phiên bản tương đương, cắt ngắn, cắt một Chuỗi giữa hai ngày:

In [108]:
ts.truncate(after='2021/02/13')

2021-02-03    0.913441
2021-02-10    0.631320
2021-02-11    0.352669
2021-02-12    1.477629
2021-02-13   -1.296447
dtype: float64

Tất cả những điêu trên đều được sử dụng DataFrame as well, indexing on ít rows

In [117]:
dates= pd.date_range('1/1/2000',periods=100,freq='W-WED')

In [118]:
long_df = pd.DataFrame(np.random.rand(100,4),
                      index=dates,
                      columns=['Colorado','Texas','New York','Ohio'])

In [119]:
long_df

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.529264,0.017925,0.298014,0.563361
2000-01-12,0.155073,0.420378,0.643011,0.718028
2000-01-19,0.036844,0.348040,0.294304,0.847636
2000-01-26,0.905720,0.920182,0.411376,0.000666
2000-02-02,0.434244,0.064442,0.629649,0.593462
...,...,...,...,...
2001-10-31,0.610662,0.250319,0.819897,0.298199
2001-11-07,0.162254,0.605024,0.024722,0.417538
2001-11-14,0.839768,0.536326,0.425457,0.909153
2001-11-21,0.536153,0.997042,0.423726,0.756468


In [121]:
long_df.loc['2000-04']

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-04-05,0.142459,0.518748,0.766819,0.884731
2000-04-12,0.307889,0.958632,0.306741,0.935726
2000-04-19,0.78709,0.097034,0.9708,0.435122
2000-04-26,0.756554,0.918591,0.589286,0.247767


### Time Series With Duplicate Indices

Trong vài application, there có thể nhiều dữ liệu quan sát sẽ rơi vào 1 thời gian cụ thể. Dưới đây là 1 ví dụ : 


In [122]:
dates= pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])

In [123]:
dup_ts = pd.Series(np.arange(5),index=dates)

In [124]:
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

Chúng ta có thể nói rằng index không `Unique` bởi check `is_unique` property:

In [125]:
dup_ts.index.is_unique

False

In [126]:
dup_ts['1/2/2000']

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

Giả sử rằng bạn muốn gộp các dẽ liêu không **non-unique** timestamps. Một cách để làm điều đó sử dung `groupby` và truyền level = 0

In [127]:
grouped = dup_ts.groupby(level=0)

In [129]:
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [130]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64