# Dữ liệu thời gian trong Python

## Giới thiệu

Dữ liệu định dạng thời gian là định dạng dữ liệu phổ biến và tương đối phức tạp do các đặc thù sau:

- Dữ liệu thường được để ở dạng text (character), cần phải chuyển đổi sang dạng phù hợp mới có thể sử dụng hiệu quả
- Định dạng dữ liệu khác nhau theo từng khu vực - ví dụ: `20221130` hoặc `30/11/2022` hoặc 11302022 hoặc `30, Nov, 2022`
- Có thêm yếu tố múi giờ (time zone) khi làm việc với dữ liệu ở các khu vực khác nhau

---

Với `python`, có nhiều cách để có thể biến đổi và sử dụng dữ liệu thời gian nhưng đơn giản nhất là 3 thư viện `datetime`, `numpy` và `pandas` 

## datetime

Ta có thể khai báo và sử dụng dữ liệu datetime như sau

In [1]:
import datetime as datetime

In [2]:
x = datetime.datetime(2020, 11, 25)
x

datetime.datetime(2020, 11, 25, 0, 0)

In [3]:
# print x
print(x)

2020-11-25 00:00:00


In [4]:
type(x)

datetime.datetime

In [5]:
print(x.year)
print(x.month)
print(x.day)
print(x.weekday())

2020
11
25
2


## numpy

Ta có thể sử dụng `numpy` để biến đổi, tính toán với dữ liệu thời gian nhanh chóng.

In [6]:
import numpy as np
# Cách 1
my_date = np.array('2019-01-02', dtype = np.datetime64)
my_date

array('2019-01-02', dtype='datetime64[D]')

In [7]:
# Cách 2
my_date2 = np.datetime64("2019-01-02")
my_date2

numpy.datetime64('2019-01-02')

Định dạng datetime trong numpy cũng có thể cho phép thay đổi giữa các cấu trúc text khác nhau

In [8]:
x = np.datetime64("20190102")
print(x)

20190102


In [9]:
my_date + np.arange(5)

array(['2019-01-02', '2019-01-03', '2019-01-04', '2019-01-05',
       '2019-01-06'], dtype='datetime64[D]')

## pandas

Khi phân tích dữ liệu, thời gian thông thường sẽ đóng vai trò là một biến. Các hàm và module xử lý dữ liệu thời gian trong `pandas` sẵn có hỗ trợ rất tốt. Do đó, khi làm việc với DataFrame, ta có thể sử dụng luôn các hàm trong pandas trong việc phân tích dữ liệu

### Tính toán dữ liệu thời gian

In [10]:
import pandas as pd
my_date = pd.to_datetime('2019-01-05')
my_date

Timestamp('2019-01-05 00:00:00')

In [11]:
# Định dạng dữ liệu thay đổi
pd.to_datetime('20190101')

Timestamp('2019-01-01 00:00:00')

In [12]:
# Ngày trong tuần
my_date.day_name()

'Saturday'

In [13]:
# Thứ trong tuần
my_date.dayofweek

5

In [14]:
# Extract tháng
my_date.month_name()

'January'

In [15]:
# Extract tháng dạng số
my_date.month

1

### Tính toán khoảng thời gian

pandas hỗ trợ tính toán các khoảng thời gian nhanh chóng

In [16]:
# Thêm 12 ngày
my_date + pd.to_timedelta(np.arange(12), 'd')

DatetimeIndex(['2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10', '2019-01-11', '2019-01-12',
               '2019-01-13', '2019-01-14', '2019-01-15', '2019-01-16'],
              dtype='datetime64[ns]', freq=None)

In [17]:
# Thêm 12 tháng
my_date + pd.to_timedelta(np.arange(12), 'm')

DatetimeIndex(['2019-01-05 00:00:00', '2019-01-05 00:01:00',
               '2019-01-05 00:02:00', '2019-01-05 00:03:00',
               '2019-01-05 00:04:00', '2019-01-05 00:05:00',
               '2019-01-05 00:06:00', '2019-01-05 00:07:00',
               '2019-01-05 00:08:00', '2019-01-05 00:09:00',
               '2019-01-05 00:10:00', '2019-01-05 00:11:00'],
              dtype='datetime64[ns]', freq=None)

Trừ 2 khoảng thời gian

In [18]:
pd.to_datetime('20200109') - pd.to_datetime('20190708')

Timedelta('185 days 00:00:00')

**Lưu ý**: Để phục vụ việc phân tích và xử lý dữ liệu thời gian, ta chỉ cần tập trung vào `pandas` và `numpy` là đủ

## Tài liệu tham khảo

- https://aeturrell.github.io/python4DS/dates-and-times.html