
表格中的每一行都独立于其他行，他们的顺序页没有任何关系。并且，没有提供有关行之前和行之后的列编码信息。


时间序列：我们切换到另一个有趣的数据集：华盛顿特区自行车共享系统中的数据，报告了2011年至2012年之间首都自行车共享系统中租用自行车的每小时计数以及相应的天气和季节性信息。

In [23]:
import pandas as pd
import torch 
import numpy as np

### 加载vsc 创建tensor

In [92]:
dset_path = r"./data/chapter3/hour-fixed.csv" 

In [93]:
# 用pandas预览一下
df = pd.read_csv(dset_path)
df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [104]:
# 保存col_name
col_name = df.columns
col_name

Index(['instant', 'dteday', 'season', 'yr', 'mnth', 'hr', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt'],
      dtype='object')

![image.png](attachment:c172e4b7-b475-4395-ba0d-5b482ef17bf7.png)

In [94]:
bikes_numpy = np.loadtxt(dset_path,
                         dtype=np.float32,
                         delimiter=",",
                         skiprows=1,
                         converters={1: lambda x: float(x[8:10])}  
                        )
        # 备注converters参数是字典，将某列的数据替换
            # 上述的作用相当于替换为float('2011-01-01'[8:10]) => 01. 也就是day。
                # 如果不转换 error: could not convert string to float: '2011-01-01'
bikes = torch.from_numpy(bikes_numpy) 
bikes

tensor([[1.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 3.0000e+00, 1.3000e+01,
         1.6000e+01],
        [2.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 8.0000e+00, 3.2000e+01,
         4.0000e+01],
        [3.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 5.0000e+00, 2.7000e+01,
         3.2000e+01],
        ...,
        [1.7377e+04, 3.1000e+01, 1.0000e+00,  ..., 7.0000e+00, 8.3000e+01,
         9.0000e+01],
        [1.7378e+04, 3.1000e+01, 1.0000e+00,  ..., 1.3000e+01, 4.8000e+01,
         6.1000e+01],
        [1.7379e+04, 3.1000e+01, 1.0000e+00,  ..., 1.2000e+01, 3.7000e+01,
         4.9000e+01]])

![image.png](attachment:7b4091c1-938f-4402-bf12-f31f553d138b.png)

这个神经网络模型需要查看每种数据的值序列，例如乘车次数，一天中的时间，温度和天气状况，因此N个并行的大小为C的并行序列。C代表通道（channel），在神经网络中，它与此处所用的一维数据列（column）相同。 N维代表时间轴，这里是每小时输入一次。

你可能希望在更长的收集期内（例如天）拆分2年数据集。以这种方式，你将获得N个样本数（number of samples），样本由长度为L的C个序列的集合。换句话说，你的时间序列数据集是维度为3的张量，形状为N x C xL。C仍然是 17个通道，而L则是一天中的24个小时通道。没有必要特别说明为什么我们必须使用24小时这一时间段，尽管一般的日常的生活节奏可能会给我们提供可用于预测的模式。如果需要，我们可以改为使用7 * 24 = 168个小时块来按周划分数据集。

---
现在回到你的自行车共享数据集。第一列是索引（数据的全局顺序）；第二个是日期；第六个是一天中的时间点。你拥有可以创建行驶计数和其他变量等日常序列数据集所需的一切。一般情况下你的数据集已经排好序，但是如果一旦没有排序，你可以在其上使用torch.sort进行适当排序。

In [110]:
# 原始数据是2D的，每隔1小时记录一行。两个轴分别（ 17520行 、17列）
# 当前数据有17520行，17列 。也就是记录了17520小时的各项数据。
bikes.shape,bikes.stride()

(torch.Size([17520, 17]), (17, 1))

In [114]:
# 转为3D数据 。三个轴分别为(日期、小时、17列)
daily_bikes = bikes.view(-1,24,bikes.shape[1]) # -1用作占位符,填充自动计算的结果。
    # 这里只是改变了视图view，内部存储（Storage）不变，依然是连续的数字的线性容器——浮点数
daily_bikes.shape,daily_bikes.stride()
    

(torch.Size([730, 24, 17]), (408, 17, 1))

In [115]:
#你现在每天有C个通道的N个L小时的序列。为了获得你所需的NxCxL顺序，你需要转置张量：

