# Day2_02 Pandas 计算平均打卡上班时间

> 本文系参加《盖若 Python 训练营》的练习内容，训练营网址 https://www.gairuo.com/p/python-camp

某员工一段时间上班打卡的时间记录如下，现在需要计算他在这期间的平均打卡时间:

In [1]:
# 一周打卡时间记录

ts = '''
2020-10-28 09:59:44
2020-10-29 10:01:32
2020-10-30 10:04:27
2020-11-02 09:55:43
2020-11-03 10:05:03
2020-11-04 09:44:34
2020-11-05 10:10:32
2020-11-06 10:02:37
'''

------

读取数据并将数据类型转换为时间类型

In [2]:
import pandas as pd
from io import StringIO

In [3]:
df = pd.read_csv(StringIO(ts), header=None, names=['time'], parse_dates=['time'])
# parse_dates=['time'] 会将 time 列转换为时间格式
df1 = df.copy()

In [4]:
df

Unnamed: 0,time
0,2020-10-28 09:59:44
1,2020-10-29 10:01:32
2,2020-10-30 10:04:27
3,2020-11-02 09:55:43
4,2020-11-03 10:05:03
5,2020-11-04 09:44:34
6,2020-11-05 10:10:32
7,2020-11-06 10:02:37


In [5]:
df.dtypes

time    datetime64[ns]
dtype: object

In [6]:
df.time.mean()

# 直接使用 datetime 的平均值方法，得到的结果会平均日期及时间，并不是我们想要的结果

Timestamp('2020-11-02 04:00:31.500000')

## 方法 1

In [7]:
# 去掉年月日，只保留时间

df['time'] = df['time'].dt.time
df

Unnamed: 0,time
0,09:59:44
1,10:01:32
2,10:04:27
3,09:55:43
4,10:05:03
5,09:44:34
6,10:10:32
7,10:02:37


In [8]:
df.dtypes

time    object
dtype: object

可以看到，时间格式从 datetime64[ns] 变成了字符串格式。需要将字符串格式的时间转换为时间格式，并求平均值

In [9]:
df['time'] = pd.to_datetime(df['time'], format='%H:%M:%S')

In [10]:
# 求 time 列时间的平均值，并只保留时间部分

df['time'].mean().time()

datetime.time(10, 0, 31, 500000)

## 方法 2

将所有的年月日替换为同一天，再求平均值

In [11]:
df1

Unnamed: 0,time
0,2020-10-28 09:59:44
1,2020-10-29 10:01:32
2,2020-10-30 10:04:27
3,2020-11-02 09:55:43
4,2020-11-03 10:05:03
5,2020-11-04 09:44:34
6,2020-11-05 10:10:32
7,2020-11-06 10:02:37


In [12]:
df1.dtypes

time    datetime64[ns]
dtype: object

In [13]:
df1.time.apply(pd.Timestamp.replace, year=2020, month=1, day=1).mean()

Timestamp('2020-01-01 10:00:31.500000')

或者

In [14]:
df1.time.apply(lambda s: s.replace(year=2020, month=1, day=1)).mean()

Timestamp('2020-01-01 10:00:31.500000')