# 第八章 解析Unix时间

In [1]:
import pandas as pd

## 8.1 解析 `Unix` 时间戳

在 `pandas` 中处理 `Unix` 时间戳不是很容易 - 我花了相当长的时间来解决这个问题。 我们在这里使用的文件是一个软件包流行度文件，我在我的系统上的`/var/log/popularity-contest`找到的。

这里解释了这个文件是什么。

In [2]:
popcon = pd.read_csv('../data/popularity-contest',sep=' ',)[:-1]
popcon.columns = ['atime','ctime','package-name','mru-program','tag']

列是访问时间，创建时间，包名称最近使用的程序，以及标签。

In [3]:
popcon[:5]

Unnamed: 0,atime,ctime,package-name,mru-program,tag
0,1387295797,1367633260,perl-base,/usr/bin/perl,
1,1387295796,1354370480,login,/bin/su,
2,1387295743,1354341275,libtalloc2,/usr/lib/x86_64-linux-gnu/libtalloc.so.2.0.7,
3,1387295743,1387224204,libwbclient0,/usr/lib/x86_64-linux-gnu/libwbclient.so.0,<RECENT-CTIME>
4,1387295742,1354341253,libselinux1,/lib/x86_64-linux-gnu/libselinux.so.1,


pandas 中的时间戳解析的神奇部分是 `numpy datetime`已经存储为 Unix 时间戳。 所以我们需要做的是告诉 `pandas` 这些整数实际上是数据时间 - 它不需要做任何转换。

我们需要首先将这些转换为整数：

In [4]:
popcon['atime'] = popcon['atime'].astype(int)
popcon['ctime'] = popcon['ctime'].astype(int)

每个 `numpy` 数组和 `pandas` 序列都有一个dtype` - 这通常是`int64，float64或object`。 一些可用的时间类型是`datetime64[s]，datetime64[ms]和datetime64[us]`。 与之相似，也有`timedelta`类型。

我们可以使用`pd.to_datetime`函数将我们的整数时间戳转换为`datetimes`。 这是一个常量时间操作 - 我们实际上并不改变任何数据，只是改变了 Pandas 如何看待它。

In [5]:
popcon['atime'] = pd.to_datetime(popcon['atime'],unit='s')
popcon['ctime'] = pd.to_datetime(popcon['ctime'],unit='s')

如果我们现在查看`dtype`，它是`<M8[ns]`，我们可以分辨出M8是`datetime64`的简写。

In [6]:
popcon['atime'].dtype

dtype('<M8[ns]')

所以现在我们将`atime`和`ctime`看做时间了。

In [None]:
popcon[:5]