In [1]:
'''
    时间序列 - 索引及切片

    TimeSeries是Series的一个子类，所以Series索引及数据选取方面的方法基本一样

    同时TimeSeries通过时间序列有更便捷的方法做索引和切片
'''


'\n    时间序列 - 索引及切片\n\n    TimeSeries是Series的一个子类，所以Series索引及数据选取方面的方法基本一样\n\n    同时TimeSeries通过时间序列有更便捷的方法做索引和切片\n'

In [3]:
import numpy as np
import pandas as pd
from datetime import datetime

In [10]:
# 索引学习 索引方法同样适用于Dataframe
# 基本下标位置索引
# 时间序列由于按照时间先后排序，故不用考虑顺序问题
rng = pd.date_range('2019/11','2019/12')
ts = pd.Series(np.random.rand(len(rng)),index=rng)
print('ts:',ts,sep='\n')
# 时间序列标签索引，支持各种时间字符串，以及datetime.datetime
print("ts['2019-11-02']:",ts['2019-11-02'])
print("ts['20191102']:",ts['20191102'])
print("ts['11/02/2019']:",ts['11/02/2019'])
print("ts[datetime(2019,11,2)]:",ts[datetime(2019,11,2)])



ts:
2019-11-01    0.034937
2019-11-02    0.918629
2019-11-03    0.658986
2019-11-04    0.403074
2019-11-05    0.468199
2019-11-06    0.563360
2019-11-07    0.547790
2019-11-08    0.681416
2019-11-09    0.847734
2019-11-10    0.836606
2019-11-11    0.631913
2019-11-12    0.319546
2019-11-13    0.214228
2019-11-14    0.932036
2019-11-15    0.651591
2019-11-16    0.414145
2019-11-17    0.524547
2019-11-18    0.402079
2019-11-19    0.708988
2019-11-20    0.672506
2019-11-21    0.281581
2019-11-22    0.866500
2019-11-23    0.262256
2019-11-24    0.049224
2019-11-25    0.087476
2019-11-26    0.937870
2019-11-27    0.782140
2019-11-28    0.630659
2019-11-29    0.675204
2019-11-30    0.973871
2019-12-01    0.268823
Freq: D, dtype: float64
ts['2019-11-02']: 0.9186285964168406
ts['20191102']: 0.9186285964168406
ts['11/02/2019']: 0.9186285964168406
ts[datetime(2019,11,2)]: 0.9186285964168406


In [16]:
# 切片学习
# 和Series按照index索引原理一样，也是末端包含

print("ts['2019-11-05':'2019-11-10'],",ts['2019-11-05':'2019-11-10'],sep='\n')
# 传入年,直接将2019年的数据都返回了
print(ts['2019'].head())

ts['2019-11-05':'2019-11-10'],
2019-11-05    0.468199
2019-11-06    0.563360
2019-11-07    0.547790
2019-11-08    0.681416
2019-11-09    0.847734
2019-11-10    0.836606
Freq: D, dtype: float64
2019-11-01    0.034937
2019-11-02    0.918629
2019-11-03    0.658986
2019-11-04    0.403074
2019-11-05    0.468199
Freq: D, dtype: float64


In [27]:
# 重复索引的时间序列
dates = pd.DatetimeIndex(['2019-11-15','2019-11-16','2019-11-17','2019-11-15','2019-11-16',])
ts = pd.Series(np.random.rand(len(dates)),index=dates)
print('ts(含重复时间戳索引):',ts,sep='\n')

# index有重复，is_unique检查 → values唯一，index不唯一
# is_unique 如果对象中的值唯一，则返回布尔值。
print('ts.is_unique:',ts.is_unique)  # True  因为ts的values是唯一的
print('ts.index.is_unique:',ts.index.is_unique)  # False 索引有重复的

# index有重复的将返回多个值
print('重复索引将返回多个值,ts[''2019-11-15]:',ts['2019-11-15'],sep='\n')

# 解决这种情况,可以用group()做分组，重复的值这里用平均值处理
print('group()做分组后:',ts.groupby(level=0).mean(),sep='\n')

'''
     def groupby(self, by=None, axis=0, level=None, as_index=True, sort=True,
                group_keys=True, squeeze=False, observed=False, **kwargs):
    使用映射器或按一系列列对DataFrame或Series进行分组。
    分组操作涉及拆分对象，应用功能以及组合结果的某种组合。
    这可用于对大量数据进行分组并在这些组上进行计算操作。
    level : int, level name, or sequence of such, default None
    If the axis is a MultiIndex (hierarchical), group by a particular
    level or levels.
    如果轴是MultiIndex（分层），则按一个或多个特定级别分组。
'''


ts(含重复时间戳索引):
2019-11-15    0.995716
2019-11-16    0.192401
2019-11-17    0.075688
2019-11-15    0.585997
2019-11-16    0.586481
dtype: float64
ts.is_unique: True
ts.index.is_unique: False
重复索引将返回多个值,ts[2019-11-15]:
2019-11-15    0.995716
2019-11-15    0.585997
dtype: float64
group()做分组后:
2019-11-15    0.790857
2019-11-16    0.389441
2019-11-17    0.075688
dtype: float64


'\n     def groupby(self, by=None, axis=0, level=None, as_index=True, sort=True,\n                group_keys=True, squeeze=False, observed=False, **kwargs):\n    使用映射器或按一系列列对DataFrame或Series进行分组。\n    分组操作涉及拆分对象，应用功能以及组合结果的某种组合。\n    这可用于对大量数据进行分组并在这些组上进行计算操作。\n    level : int, level name, or sequence of such, default None\n    If the axis is a MultiIndex (hierarchical), group by a particular\n    level or levels.\n    如果轴是MultiIndex（分层），则按一个或多个特定级别分组。\n'