<a href="https://colab.research.google.com/github/stephenliu713/python_data-analysis/blob/main/04_datetime.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

所需文件: `data/vix.csv`

# 1. `datetime` ——python中的日期格式

在我们处理数据时，日期往往有着特殊的意义并且普遍存在于各类数据中。

因此，日期在python中有特殊的格式，这需要我们导入python处理日期变量的标准库——`datetime`。（尽管你也可以使用`str`来表示日期，但是这样远没有`datetime`灵活）

In [None]:
import datetime as dt

## 1.1 `datetime`的初始化

`datetime`包含年、月、日、小时、分钟、秒等时间信息。但是当你初始化时，你只需要定义年月日，时分秒不是必须的。

In [None]:
time_1 = dt.datetime(1949, 10, 1)
print(time_1)

1949-10-01 00:00:00


### 1.1.1 返回当日的`datetime` `dt.datetime.today()`

In [None]:
today = dt.datetime.today()
print(today)

2021-11-09 05:58:47.460102


## 1.2 `datetime`转为`str` `datetime.strftime()`

数据分析的实践中我们会发现，数据存储的路径往往与事件有关，例如2021.11.9的数据存储在名为`xxx_20211109`的文件夹里。

这时就需要我们将`datetime`转化为`str`，并且是以我们需要的格式出现。`strftime()`可以做到这一点。



比如说我们希望之前得到的`today`能够以'yyyy/mm/dd'的格式显示。

In [None]:
today_ymd = today.strftime('%Y/%m/%d')
today_ymd

'2021/11/09'

### 时间格式符对应表

这条语句中的`%Y`是‘年’的格式符。常用的时间格式对应表如下：

* `%a` - 星期几缩写，如 `Mon`
* `%b` - 月份缩写，如`Jan`
* `%c` - `datetime`的字符串表示，如`03/08/15 23:01:26`
* `%d` - ‘日’，即当前时间是当前月的第几天
* `%H` - ‘时’（24h）
* `%I` - ‘时’（12h）
* `%m` - ‘月’
* `%M` - ‘分’
* `%P` - `AM`/`PM`
* `%S` - ‘秒’
* `%y` - ‘年’


[完整版时间格式符对应表](https://invented-cave-0f3.notion.site/strftime-ed0a093a9d0b41f2bd2c8e9349862165)


# 2. pandas中`datetime`的处理


首先我们读取一份带有日期的csv文件。

In [None]:
df_vix = pd.read_csv('data/vix.csv',
                     na_values = '.')
df_vix.head()

Unnamed: 0,DATE,VIXCLS
0,1990-01-02,17.24
1,1990-01-03,18.19
2,1990-01-04,19.22
3,1990-01-05,20.11
4,1990-01-08,20.26


In [None]:
df_vix.dtypes

DATE       object
VIXCLS    float64
dtype: object

## 2.1 将日期转换为`datetime`格式 `pd.to_datetime(df['date'])`



In [None]:
df_vix['DATE'] = pd.to_datetime(df_vix['DATE'])
df_vix.dtypes

DATE      datetime64[ns]
VIXCLS           float64
dtype: object

改变格式后，我们可以选择`date`列作为索引列。

In [None]:
df_vix_d = df_vix.set_index('DATE')
df_vix_d.head()

Unnamed: 0_level_0,VIXCLS
DATE,Unnamed: 1_level_1
1990-01-02,17.24
1990-01-03,18.19
1990-01-04,19.22
1990-01-05,20.11
1990-01-08,20.26


## 2.2 改变数据频率 `df.resample(rule).mean()`, `df.resample(rule).sum()`

有些时候数据的频率并不符合我们的要求。例如上面的数据是按‘天’展示的，但我们希望以‘周’为单位的数据。这时候我们可以用`df.resample()`改变数据的频率。

**`mean()`和`sum()`决定了处理后的数据应该是原始数据的平均值还是总和**。

In [None]:
# 将之前得到的数据改为按'周'显示

df_vix_w = df_vix_d.resample(rule = 'W').mean()
df_vix_w.head()

Unnamed: 0_level_0,VIXCLS
DATE,Unnamed: 1_level_1
1990-01-07,18.69
1990-01-14,21.918
1990-01-21,24.304
1990-01-28,25.744
1990-02-04,25.648


### 2.2.1 `df.resample(rule)`中`rule`的频率规则对应表

常用：

* `A` - 年末 
* `AS`, `YS` - 年初
* `M` - 月末
* `W` - 周
* `D` - 日历日
* `B` - 工作日
* `H` - 小时
* `T`, `min` - 分
* `S` - 秒

[完整版频率规则对应表](https://invented-cave-0f3.notion.site/resample-rule-5c03475bbe9c43ad80b8d68e8fc94841)


In [None]:
# 按月显示
df_m = df_vix_d.resample(rule='M').mean()
df_m.head()

Unnamed: 0_level_0,VIXCLS
DATE,Unnamed: 1_level_1
1990-01-31,23.347273
1990-02-28,23.262632
1990-03-31,20.062273
1990-04-30,21.4035
1990-05-31,18.097727
