In [1]:
# 安装库
# pip install pyunit-time
# pip install dateparser
# pip install jionlp  
# pip install sinan
# pip install timeworker

In [2]:
# 使用 pyunit-time 解析日期和时间（输入一个基准日期时间，再输入一句中文语句，自动解析语句所表达的下一个日期时间）
# 可解析的类型：
# 1. 年、月、日、时、分、秒
# 2. 周、天
# 3. 中国节日
# 4. 国外特殊节日
# 5. 农历、阳历
# 6. 天干地支
# 7. 二十四节气

from pyunit_time import Time

print(Time('2023-9-15 20:15:00').parse('这个月的第三个星期天')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('前2年的国庆节的后一天晚上8点半')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('上上个月')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('今天晚上8点')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('今年儿童节晚上九点一刻')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('今天中午十二点')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('明年春节')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('明年的感恩节')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('下3个星期1早上7点半')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('今年的大寒')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('2019年12月')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('8年前')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('三天以后')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('三天之内的下午3点')[0].get('keyDate'))

print(Time('2023-9-15 20:15:00').parse('后三天的下午4点56秒')[0].get('keyDate'))

2023-09-17 20:15:00
2021-09-30 20:30:00
2023-07-15 20:15:00
2023-09-15 20:15:00
2023-06-01 21:15:00
2023-09-15 12:15:00
2024-02-10 20:15:00
2024-11-28 20:15:00
2023-10-02 07:30:00
2024-01-20 20:15:00
2019-12-01 20:15:00
2015-09-15 20:15:00
2023-09-18 20:15:00
2023-09-18 15:15:00
2023-09-18 16:15:56


In [3]:
# 使用 dateparser 解析日期和时间

import dateparser
import datetime

print(dateparser.parse('Fri, 12 Dec 2014 10:55:50'))

print(dateparser.parse('1991-05-17'))

print(dateparser.parse('In two months'))

print(dateparser.parse('1484823450'))

print(dateparser.parse('January 12, 2012 10:00 PM EST'))

print(dateparser.parse('2小时前'))

print(dateparser.parse('2014-10-12', settings={'DATE_ORDER': 'YMD'}))

print(dateparser.parse('2014-10-12', settings={'DATE_ORDER': 'YDM'}))

print(dateparser.parse('1 year', settings={'PREFER_DATES_FROM': 'future'}))

print(dateparser.parse('tomorrow', settings={'RELATIVE_BASE': datetime.datetime(1992, 1, 1)}))

2014-12-12 10:55:50
1991-05-17 00:00:00
2023-11-16 11:33:58.549731
2017-01-19 18:57:30
2012-01-12 22:00:00-05:00
2023-09-16 09:33:58.641416
2014-10-12 00:00:00
2014-12-10 00:00:00
2024-09-16 11:33:58.651417
1992-01-02 00:00:00


In [4]:
# 使用 jionlp 解析日期和时间（功能非常强大的中文 NLP 库）

import time
import jionlp as jio
import json

# 时间类型实体识别
text = '''
        8月临近尾声，中秋、国庆两个假期已在眼前。2021年中秋节是9月21日，星期二。
        有不少小伙伴翻看放假安排后，发现中秋节前要"补"假。
        记者注意到，根据放假安排，9月18日（星期六）上班，9月19日至21日放假调休，也就是从周日开始放假3天。
        由于中秋节后上班不到 10天，又将迎来一个黄金周—国庆长假，因此工作也就"安排"上了。
        双节来袭，仍有人要坚守岗位。
       '''
res = jio.ner.extract_time(text, time_base=time.time(), with_parsing=False)
# print(json.dumps(res, ensure_ascii=False, indent=4, separators=(',', ':')))


# 时间语义解析
time_text_list = [x.get('text') for x in res]
for time_text in time_text_list:
    print(time_text,":",jio.parse_time(time_text, time_base=time.time()).get('time'))

# jionlp - 微信公众号: JioNLP  Github: `https://github.com/dongrixinyu/JioNLP`.
# jiojio - `http://www.jionlp.com/jionlp_online/cws_pos` is available for online trial.
8月 : ['2023-08-01 00:00:00', '2023-08-31 23:59:59']
中秋 : ['2023-09-29 00:00:00', '2023-09-29 23:59:59']
国庆 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']
2021年中秋节 : ['2021-09-21 00:00:00', '2021-09-21 23:59:59']
9月21日 : ['2023-09-21 00:00:00', '2023-09-21 23:59:59']
星期二 : ['2023-09-12 00:00:00', '2023-09-12 23:59:59']
中秋节前 : ['2023-09-16 11:33:58', '2023-09-29 23:59:59']
9月18日（星期六） : ['2023-09-18 00:00:00', '2023-09-18 23:59:59']
9月19日至21日 : ['2023-09-19 00:00:00', '2023-09-21 23:59:59']
从周日开始 : ['2023-09-17 00:00:00', 'inf']
3天 : {'day': 3.0}
中秋节后 : ['2023-09-29 00:00:00', 'inf']
10天 : {'day': 10.0}
国庆 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']


In [5]:
# 使用 sinan 解析日期和时间（中文日期 / 时间 / 数字量提取工具）

from sinan import Sinan

si = Sinan('今天下午五点，我花了一个半小时走了五公里的路程。')
print(si.parse().get('datetime'))

[1;36m原始语句：[0m 今天下午五点，我花了一个半小时走了五公里的路程。
[1;36m解析语句：[0m [4;32m2023-09-16 17:00:58[0m，我花了[4;32m5400.0s[0m走了[4;32m5000.0m[0m的路程。
['2023-09-16 17:00:58']


In [6]:
# 使用 timeworker 解析日期和时间（中文日期标准化库）

import timeworker
time_str = '最近五天'
print(timeworker.parse(time_str))

['2023-09-11', '2023-09-16']


In [7]:
# 地狱难度测试

test_texts = ['11,10,2021 15:15:22 pm ','2022,10月, /.13      135:50:02 am','Publishd 公元2002年，10月， /·12   06：50：33 PM 时间','公元2002年.13+七月,5:18 PM','1987年/10月/-11号.5:20 下午']

n = 1
print('接下来进入地狱级难度测试环节！\n')
for test_text in test_texts:
    print(f'第{n}条测试文本是：{test_text}')
    try:
        print('pyunit-time 解析的结果是：',Time('2023-9-15 20:15:00').parse('test_text')[0].get('keyDate'))
    except:
        print('pyunit-time 解析的结果是：','报错，无法解析！')
    print('dateparser 解析的结果是：',dateparser.parse(test_text))
    res2 = jio.ner.extract_time(test_text, time_base=time.time(), with_parsing=False)
    time_text_list2 = [x.get('text') for x in res2]
    print('jionlp 解析的结果是：')
    for time_text2 in time_text_list2:
        print(time_text2,":",jio.parse_time(time_text, time_base=time.time()).get('time'))
    si = Sinan(test_text)
    print('sinan 解析的结果是：',si.parse().get('datetime'))
    print('timeworker 解析的结果是：',timeworker.parse(test_text))
    print('\n')
    n += 1

接下来进入地狱级难度测试环节！

第1条测试文本是：11,10,2021 15:15:22 pm 
pyunit-time 解析的结果是： 报错，无法解析！
dateparser 解析的结果是： None
jionlp 解析的结果是：
15:15:22 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']
[1;36m原始语句：[0m 11,10,2021 15:15:22 pm 
[1;36m解析语句：[0m 11,10,2021 [4;32m2023-09-16 15:15:22[0m pm 
sinan 解析的结果是： ['2023-09-16 15:15:22']
timeworker 解析的结果是： []


第2条测试文本是：2022,10月, /.13      135:50:02 am
pyunit-time 解析的结果是： 报错，无法解析！
dateparser 解析的结果是： None
jionlp 解析的结果是：
50:02 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']
[1;36m原始语句：[0m 2022,10月, /.13      135:50:02 am
[1;36m解析语句：[0m 2022,[4;32m2023-10-16 11:34:00[0m, /.13      13[4;32m2023-09-16 05:50:02[0m am
sinan 解析的结果是： ['2023-10-16 11:34:00', '2023-09-16 05:50:02']
timeworker 解析的结果是： ['2023-10-01', '2023-10-31']


第3条测试文本是：Publishd 公元2002年，10月， /·12   06：50：33 PM 时间
pyunit-time 解析的结果是： 报错，无法解析！
dateparser 解析的结果是： None
jionlp 解析的结果是：
2002年 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']
10月 : ['2023-10-01 00:00:00', '2023-10-01 23:59:59']
06：

In [8]:
# Tips:文本转日期时间格式

from datetime import datetime

text1 = '2023-10-15 21:38:15'
text2 = '1987-10-11'

# 转换为日期时间格式
print(datetime.strptime(text1, '%Y-%m-%d %H:%M:%S'))
print(datetime.strptime(text2, '%Y-%m-%d'))

2023-10-15 21:38:15
1987-10-11 00:00:00


In [9]:
# 在 pandas 中操作日期时间

import pandas as pd

# 更改列的类型为日期时间格式
# df['日期时间'] = df['日期时间'].astype('datetime64')
# 或者
# df['日期时间'] = pd.to_datetime(df['日期时间'])

# 以 jionlp 为构例，指定开始日期和结束日期，使用 pandas 构造日期区间序列
time_text3 = '最近两周'
print(time_text3,":",jio.parse_time(time_text3, time_base=time.time()).get('time'))
start_date = jio.parse_time(time_text3, time_base=time.time()).get('time')[0]
end_date = jio.parse_time(time_text3, time_base=time.time()).get('time')[1]
date_generated = pd.date_range(start_date, end_date, freq='D') # 按天构造
df = pd.DataFrame({'日期': date_generated}) # 将 DatetimeIndex 转换成 DataFrame
print(f'构造出的日期区间序列是：\n{df}')

最近两周 : ['2023-09-02 00:00:00', '2023-09-16 11:34:01']
构造出的日期区间序列是：
           日期
0  2023-09-02
1  2023-09-03
2  2023-09-04
3  2023-09-05
4  2023-09-06
5  2023-09-07
6  2023-09-08
7  2023-09-09
8  2023-09-10
9  2023-09-11
10 2023-09-12
11 2023-09-13
12 2023-09-14
13 2023-09-15
14 2023-09-16
