# 导包 + 切换路径

In [None]:
import numpy as np
import pandas as pd
from datetime import datetime

import os

# 手动修改 工作空间目录, 即: 修改相对路径的地址
os.chdir('D:/workspace/ai_20_work_bj/pandasProject/')
os.getcwd()

# 1. 查看下Python中的日期类型

In [None]:
# 方式1: 获取当前时间. 
t1 = datetime.now()         # datetime.datetime(2024, 7, 23, 16, 43, 24, 861846)
t1

# 方式2: 手动指定之间. 
t2 = datetime(2024, 7, 23)  # datetime.datetime(2024, 7, 23, 0, 0)
t2

# timedelta: 时间差类型
t2 - t1         # timedelta

# 2. Panda中的日期类型

In [None]:
# 方式1: 手动创建
t1 = pd.Timestamp(2024, 7, 23)
t1      # Timestamp('2024-07-23 00:00:00'),  Pandas的Timestamp = Python的datetime

# 方式2: pd.to_datetime() 也可以把(符合日期格式的)数据转成日期. 
t2 = pd.to_datetime('2024-07-23')       # Timestamp('2024-07-23 00:00:00')
t2

# 获取 时间差 类型的数据
t2 - t1         # Timedelta('0 days 00:00:00')

In [None]:
# 方式3: 先读取文件, 然后把符合日期格式的数据, 转成日期.
ebola = pd.read_csv('data/country_timeseries.csv')
ebola.head()

# 查看各列的基本信息. 
ebola.info()

# 手动把 Date列的值, 转成 datetime64[ns] 数据类型
ebola.loc[:, 'new_Date'] = pd.to_datetime(ebola['Date'])        # datetime64[ns]
ebola.info()

In [None]:
# 方式4: 读取文件的时候, 直接指定 某些列为: 日期列, 前提: 这些列的数据 要符合日期的要求.
# parse_dates参数: 把符合日期格式的列, 转成日期类型(datetime64[ns],  Pandas中的数据类型)

# ebola = pd.read_csv('data/country_timeseries.csv', parse_dates=[0])       # datetime64[ns]
ebola = pd.read_csv('data/country_timeseries.csv', parse_dates=['Date'])    # datetime64[ns], 效果同上.
ebola.info()

# 3. 提取出日期的各个部分

In [None]:
# 1. 获取日期对象.
t1 = pd.to_datetime('2024-07-23')
t1          # Timestamp('2024-07-23 00:00:00')

# 2. 从t1中, 获取指定的日期. 
t1.year     # 2024
t1.month    # 7
t1.day      # 23
t1.quarter  # 季度
t1.days_in_month    # 7月的总天数
t1.dayofweek        # 1, 周中的第几天, 从周一开始数(从0计数), 周二: 1
t1.dayofyear        # 205, 年中的第几天

In [None]:
# 2. 给 ebola这个df对象, 新增: year, month, day三列.
ebola['year'] = ebola['Date'].dt.year
ebola['month'] = ebola['Date'].dt.month
ebola['day'] = ebola['Date'].dt.day

# 3. 查看添加后的数据格式.
ebola[['Date', 'year', 'month', 'day']].head()

# 4. 日期计算

In [None]:
# 1. 加载数据源, 获取df对象.
banks = pd.read_csv('data/banklist.csv', parse_dates=[5, 6])    # 细节: 把最后两列设置为: 日期类型
banks.head()
# banks.info()        # 查看各列的基本信息

In [None]:
# 2. 给 banks这个df对象, 添加两列, 分别表示: 银行破产的季度 和 年份.
banks['closing_quarter'] = banks['Closing Date'].dt.quarter
banks['closing_year'] = banks['Closing Date'].dt.year
banks.head()

In [None]:
# 3. 完成如下的需求.
# 需求1: 计算每年破产银行数量
# 方式1: groupby()方式
banks.groupby('closing_year')['Bank Name'].count()
# banks.groupby('closing_year')['Bank Name'].count().plot(figsize=(16, 8), grid=True, color='red')

# 方式2: 透视表方式
banks.pivot_table(index='closing_year', values='Bank Name', aggfunc='count')
banks.pivot_table(index='closing_year', values='Bank Name', aggfunc='count').plot(figsize=(16, 8), grid=True, color='red')

In [None]:
# 需求2: 计算每年, 每季度破产银行数量
# 方式1: groupby()
# banks.groupby()['Bank Name'].count()
# banks.groupby(['closing_year', 'closing_quarter'])['Bank Name'].count().plot(figsize=(16, 8), grid=True, color='red')

# 方式2: 透视表.
banks.pivot_table(index=['closing_year', 'closing_quarter'], values='Bank Name', aggfunc='count')

# 5. 生成范围日期

In [71]:
# 格式: pd.date_range(起始日期, 结束日期, freq='频次')      # Frequency: 频率, 频次
# 需求1: 生成连续的区间(即: 日历日)
pd.date_range('2024-06-01', '2024-07-31')           # freq默认是: D, 日历日

# 需求2: 隔1个工作日 取1个工作日
pd.date_range('2024-06-01', '2024-07-31', freq='2B') # B: 工作日, 包左包右.

# 需求3: 2024年6月 ~ 2024年7月, 每月第1个周四.  Week Of Month, Thursday
pd.date_range('2024-06-01', '2024-07-31', freq='WOM-1Thu')

# 需求3: 2024年6月 ~ 2024年7月, 每月第3个周五.  Week Of Month, Friday
pd.date_range('2024-06-01', '2024-07-31', freq='WOM-3Fri')

DatetimeIndex(['2024-06-21', '2024-07-19'], dtype='datetime64[ns]', freq='WOM-3FRI')