# Pandas 轉換/解析字串成為Datetime

Pandas有一個好用的`.to_datetime()`方法可以將日期的字串轉換為實際的Pandas的`Timestamp`時間戳資料型別。如果要利用Pandas來進行時間序列分析情境時, 這個轉換就非常重要。

## Pandas.to_datetime( ) 方法

![](images/pandas_to_datetime.png)

`.to_datetime()`有蠻多的參數：

* **arg**: 這是你要轉換為日期時間對象的“東西”。你可以傳入int, float, string, datetime, list, tuple, Series, DataFrame, 或 dict。
* **format (Default=None)**: *非常重要* format參數將指示Pandas如何將字串轉換為`DateTime`物件。該格式必須使用以下格式代碼。
* **origin (Default='unix')**: 起點只是參考日期。你想從哪裡開始創建時間戳記？預設設置為Unix，即`1970-01-01`。
* **unit**: 假設在arg參數傳遞了一個整數（例如20203939），並設定`unit`參數，則`unit`可以指定這的整數離原點的時間距離是多什麼單位。如果我們設置unit='s'，則這意味著Pandas會將20203939解釋為距離原點20,203,939秒。可用時間單位為`[D，s，ms，us，ns]`。
* **dayfirst**: 這個參數可幫助Pandas了解要解析的字串是否以是day在前而year在後的格式（例如：01/02/2020 > 2020-02-01）。我建議先嘗試使用其他參數。
* **yearfirst**: 這個參數可幫助Pandas了解要解析的字串是否以是year在前而day在後的格式（例如：2020-02-01 > 01/02/2020）。我建議先嘗試使用其他參數。
* **utc(Default=None)**: 如果要將DateTime對象轉換為可識別時區（意味著每個`datetime`物件也具有時區資訊），並且希望將該時區設置為UTC，則設置utc=True。

理解它們都很重要。熟悉它們之後，你還需要了解以下日期格式代碼。

## 日期時間格式代碼

要理解的一個非常重要的概念是DateTime格式代碼。這是指示Pandas如何解析日期字串的指引。

|Format Code|Description|Examples|
|:--- |:--- |:--- |
|%a|Weekday, abbreviated|Mon, Tues, Sat|
|%A|Weekday, full name|Monday, Tuesday, Saturday|
|%w|Weekday, decimal. 0=Sunday|1, 2, 6|
|%d|Day of month, zero-padded|01, 02, 21|
|%b|Month, abbreviated|Jan, Feb, Sep|
|%B|Month, full name|January, February, September|
|%m|Month number, zero-padded|01, 02, 09|
|%y|Year, without century, zero-padded|02, 95, 99|
|%Y|Year, with century|1990, 2020|
|%H|Hour (24 hour), zero padded|01, 22|
|%I|Hour (12 hour) zero padded|01, 12|
|%p|AM or PM|AM, PM|
|%M|Minute, zero-padded|01, 02, 43|
|%S|Second, zero padded|01, 32, 59|
|%f|Microsecond, zero-padded|000001, 000342, 999999|
|%z|UTC offset ±HHMM[SS[.ffffff]]|+0000, -1030, -3423.234|
|%Z|Time zone name|ITC, EST, CST|
|%j|Day of year, zero-padded|001, 365, 023|
|%U|Week # of year, zero-padded. Sunday first day of week|00, 01, 51|
|%W|Week # of year, zero-padded. Monday first day of week|00, 02, 51|
|%c|Appropriate date and time|Monday Feb 01 21:30:00 1990|
|%x|Appropriate Date|02/01/90|
|%X|Appropriate Time|21:22:00|
|%%|Literal '%' – Use this when you have a % sign in your format.|%|

## 解析日期字串成為Datetime

Pandas的`to_datetime()`是一個很有用的函數。讓我們將一些字串轉換為日期時間：

1. 標量字串(scalar string)的基本轉換
2. 轉換 Pandas `Series` 成為 `datetime`
3. 轉換 Pandas `Series` 成為 `datetime` (使用custom format)
4. 轉換 Unix integer (days) 成為 `datetime`
5. 轉換 integer (seconds) 成為 `datetime`


### 標量字串(scalar string)的基本轉換

要將任何字串轉換為日期時間，你需要直接從pandas庫中調用`.to_datetime()`。

對於第一個範例，我們將顯示變量的類型，並展示從字串到日期時間的變化。

In [7]:
string_to_convert = '2020-02-01'
print(f'Your string: {string_to_convert}')
print(f'Your string_to_convert type: {type(string_to_convert)}')
print()

# Convert your string
new_date = pd.to_datetime(string_to_convert)

print(f'Your new date is: {new_date}')
print(f'Your new type is: {type(new_date)}')

Your string: 2020-02-01
Your string_to_convert type: <class 'str'>

Your new date is: 2020-02-01 00:00:00
Your new type is: <class 'pandas._libs.tslibs.timestamps.Timestamp'>


### 轉換 Pandas Series 成為 datetime

讓我們創建一個`Series`物件:

In [9]:
s = pd.Series(['2020-02-01',
               '2020-02-02',
               '2020-02-03',
               '2020-02-04'])

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    2020-02-01
1    2020-02-02
2    2020-02-03
3    2020-02-04
dtype: object


In [11]:
s = pd.to_datetime(s)

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0   2020-02-01
1   2020-02-02
2   2020-02-03
3   2020-02-04
dtype: datetime64[ns]


你可以注意轉換前的dtype是`object`, 而轉換後則成為`datetime64[ns]`的dtype。

### 轉換 Pandas Series 成為 datetime (使用custom format)

讓我們了解一下使用**日期格式代碼**來進行Datetime轉換的強大功能。假設我們有一個包含日期的凌亂字串，並且需要將其轉換為日期。我們需要告訴Pandas如何進行轉換，這是通過**日期格式代碼**完成的。

In [12]:
s = pd.Series(['My 3date is 01199002',
           'My 3date is 02199015',
           'My 3date is 03199020',
           'My 3date is 09199204'])

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    My 3date is 01199002
1    My 3date is 02199015
2    My 3date is 03199020
3    My 3date is 09199204
dtype: object


In [13]:
s = pd.to_datetime(s, format="My 3date is %m%Y%d")

print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0   1990-01-02
1   1990-02-15
2   1990-03-20
3   1992-09-04
dtype: datetime64[ns]


你可以注意轉換前的dtype是`object`, 而轉換後則成為`datetime64[ns]`的dtype。

### 轉換 Unix integer (days) 成為 datetime

你還可以將整數轉換為日期時間。但需要記住兩點：

1. 時間參考的起點？
2. 數字的時間單位是什麼？

**Reference point** = 想從什麼時候開始"計算"這個時間?

**Unit**=時間單位是days, seconds, years還是?

In [16]:
result = pd.to_datetime(14554, unit='D', origin='unix')

print(type(result))
print(result)

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2009-11-06 00:00:00


### 轉換 integer (seconds) 成為 datetime

更常見的是，我們常獲得以秒為單位的unix時間戳(epoch time: 從1970-01-01 00:00:00累積至某個時間點的秒數)。

In [19]:
ts = pd.to_datetime(1600355888, unit='s', origin='unix')

print(type(result))
print(result)

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2009-11-06 00:00:00
