# 日期时间数据的变换


## 1 导入所需的模块

In [35]:
# 导入pandas模块
import pandas as pd

# 导入对日期和时间做变换所需的模块
from datetime import datetime

# 导入识别日期是否是纽约节假日所需的模块
import holidays

import pickle
import numpy as np

# 2 把选定的日期和时间数值变换成datetime对象

In [36]:
year = 2023 # 设定年
month = 8 # 设定月
day = 23 # 设定日
hour = 16 # 设定时
minute = 26 # 设定分

# 把设定的日期和时间变换成datetime对象
date_time = datetime(year, month, day, hour, minute)


# 显示变换结果
print('date_time is:', date_time, '\n')
print('object type is:', type(date_time))

date_time is: 2023-08-23 16:26:00 

object type is: <class 'datetime.datetime'>


# 3 从datetime对象中提取weekday和holiday变量

In [37]:
# 将date_time值存入一个pandas数据框
df = pd.DataFrame({'datetime': [date_time]})

# 得到一个只有一列和一行的数据框
print(df)

             datetime
0 2023-08-23 16:26:00


In [38]:
# 提取weekday值，表示这一天是星期几
df['weekday'] = df['datetime'].dt.strftime('%A')


# 显示 变换结果
print(df)

             datetime    weekday
0 2023-08-23 16:26:00  Wednesday


In [39]:
# 创建一个节假日实例，并指定是针对纽约州
ny_holidays = holidays.US(state='NY')

# 判断一个日期是否是节假日
df['holiday'] = df['datetime'].apply(lambda x: x in ny_holidays)

# 显示 变换结果
print(df)

             datetime    weekday  holiday
0 2023-08-23 16:26:00  Wednesday    False


# 4 从datetime对象中提取timeWindow变量

In [40]:
# 继续使用前面的df做例子
df['timeWindow'] = df['datetime'].dt.strftime('%H')

print(df)

             datetime    weekday  holiday timeWindow
0 2023-08-23 16:26:00  Wednesday    False         16


# 5 设定拥挤度的标准

In [49]:
# 加载模型数据
path = 'C:/Users/Administrator/practicumProject2/'
with open(path + 'busyness_POI_40_40.pickle', 'rb') as file:
    busyness = pickle.load(file)

    
print(type(busyness))
print(len(busyness))

<class 'list'>
2388834


In [43]:
# 取分位点，比如最低30%分位点，就是30%分位点
percentile_30 = np.percentile(busyness, 30) 
print('最低30%分位点：',percentile_30)

# 取分位点，比如最高30%分位点，就是70%分位点
percentile_70 = np.percentile(busyness, 100-30) 
print('最高30%分位点：',percentile_70)

最低30%分位点： -0.7973314179984983
最高30%分位点： 0.36497361865659717


然后你就可以写逻辑条件：

if x < percentile_30:
    显示不拥挤的绿色

if x > percentile_70:
    显示拥挤的红色



你也可以取多个分位点，比如取十个分位点，显示十个拥挤梯度，代码如下：

In [48]:
percentage = [10, 20, 30, 40, 50, 60, 70, 80, 90]
percentile = []
for k in percentage:
    percentile.append(np.percentile(busyness, k))
    print('percentile_{} is: '.format(k),percentile[-1])



percentile_10 is:  -1.070624939703595
percentile_20 is:  -0.9695354551147937
percentile_30 is:  -0.7973314179984983
percentile_40 is:  -0.5387508788899107
percentile_50 is:  -0.28961762639632294
percentile_60 is:  0.021596873552746376
percentile_70 is:  0.36497361865659717
percentile_80 is:  0.7493537954923936
percentile_90 is:  1.4328275557235677
