In [15]:
# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt

ImportError: DLL load failed while importing _imaging: 找不到指定的模块。

In [None]:
# 加载空气质量数据
air_quality = pd.read_csv("data/air_quality_no2_long.csv")
air_quality.head()

In [None]:
air_quality.dtypes

In [None]:
# 列名更改为datetime
air_quality = air_quality.rename(columns={"date.utc": "datetime"})
air_quality.head()

In [None]:
air_quality.city.unique()

#### 空气质量数据

In [None]:
# 我想将列中的日期作为日期对象而不是纯文本datetime
air_quality["datetime"] = pd.to_datetime(air_quality["datetime"])
air_quality["datetime"]

In [None]:
# 最初，其中的值是字符串，不提供任何datetime操作(例如，提取年份、星期几……)。
# 通过应用该函数，pandas解释字符串并将其转换为datetime(即)对象。在pandas中，
# 我们将这些datetime对象称为panda . timestamp，类似于标准库中的对象。
# datetimeto_datetimedatetime64 datetime.datetime (ns, UTC)
air_quality.head(1)

In [None]:
# 尽可能多的数据集包含在一个datetime信息列,熊猫输入函数像pandas.read_csv()
# 和可以转换日期在读取数据时使用的参数列表的列读取时间戳:
# pandas.read_json parse_dates ("读取文件列名")
pd.read_csv(filepath_or_buffer="./data/air_quality_no2_long.csv",
            parse_dates=["date.utc"])

In [None]:
# 为什么这些熊猫。时间戳对象有用吗?让我们用一些示例案例来说明附加价值。
# 我们正在处理的时间序列数据集的开始和结束日期是什么?
air_quality["datetime"].min(), air_quality["datetime"].max()

In [None]:
# 使用熊猫。用于datetimes的时间戳使我们能够使用日期信息进行计算，并使它们具有可比性。
# 因此，我们可以使用它来得到时间序列的长度:
air_quality["datetime"].max() - air_quality["datetime"].min()


In [None]:
# 结果是一只熊猫。对象，类似于标准Python库中的对象，并定义了一个持续时间
print(air_quality.head())

#### 我想在仅包含测量月份的列中添加一个新列DataFrame

In [None]:
# 我想在仅包含测量月份的列中添加一个新列DataFrame
air_quality["month"] = air_quality["datetime"].dt.month
air_quality.head()

#### 每个测量地点每周每一天的平均浓度是什么？


In [None]:
# 每个测量地点每周每一天的平均浓度是什么？
air_quality.groupby(
    [air_quality["datetime"].dt.weekday, "location"]
)["value"].mean()

In [None]:
# 将所有站的时间系列中的典型模式绘制在一起。
# 换句话说，一天中每小时的平均值是怎样的？
fig, axs = plt.subplots(figsize=(12, 4))
air_quality.groupby(
    air_quality["datetime"].dt.hour
)["value"].mean().plot(kind='bar', rot=0, ax=axs)

In [None]:
plt.xlabel("Hour of the day")
plt.ylabel("$NO_2 (µg/m^3)")

#### 日期时间作为索引


In [None]:
# 在关于重塑的教程中，引入枢轴（）来重塑数据表，每个测量位置作为一个单独的列：
no_2 = air_quality.pivot(index="datetime",
                         columns="location",
                         values="value")
no_2.head()

In [None]:
# 过旋转数据，日期时间信息成为表的索引。一般来说，将列设置为索引可以通过该函数实现。set_index
# 与日期时间索引（即）配合用，可提供强大的功能。例如，我们不需要访问者来获取时间系列属性，但直接在索引上提供以下属性：DatetimeIndexdt
no_2.index.year, no_2.index.weekday

In [None]:
# 其他一些优点是方便的时间段子集或地块上的调整时间尺度。让我们将此应用到我们的数据中。

#### 从 5 月 20 日到 5 月 21 日结束，在不同的车站创建值图 NO2

In [None]:
no_2["2019-05-20": "2019-05-21"].plot()

#### 将时间序列重新采样到另一个频率

In [None]:
# 将当前每小时时间序列的值合计为每个站点的月最大值。
monthly_max = no_2.resample("M").max()
monthly_max

In [None]:
"""
使用日期时间索引的时间串联数据的一个非常强大的方法是能够将时间串联重新调到另一个频率（例如，将次要数据转换为 5 分钟数据）。

重合（）方法类似于组比操作：

它通过使用定义目标频率的字符串（例如,...）提供基于时间的分组M5H

它需要一个聚合函数，如，,...meanmax
"""

In [None]:
# 定义时，时间系列的频率由属性提供：freq
monthly_max.index.freq

#### 绘制每个站的每日平均值图 NO2


In [None]:
no_2.resample("D").mean()\
    .plot(style="-0", figsize=(10, 5))

In [None]:
"""
有关时间系列功率的更多详细信息，请在用户指南部分提供。resampling

记得

有效的日期字符串可以使用函数转换为日期时间对象，或作为读取函数的一部分。to_datetime

熊猫中的日期对象支持使用访问器进行计算、逻辑操作和方便的日期相关属性。dt

A 包含这些与日期相关的属性，并支持方便的切片。DatetimeIndex

Resample是改变时间系列频率的有力方法。
"""