## 4.1 处理图像

> 需要以常见的图像格式加载图像，然后将数据转换为张量表示，其中图像的各个部分按照PyTorch期望的方式进行排列<br> 图像被标识为一个排列在具有高度和宽度规则网络中的标量集合，其中高度和宽度以像素为单位。每个网格点（像素）可能有一个标量，它将被标识为一个灰度图像；或者每个网格点有多个标量，这是每个标量通常会呈现不同的颜色，或不同的特性，如深度相机的深度

### 4.1.2 加载图像文件

In [1]:
import imageio
img_arr = imageio.imread("C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/bobby.jpg")
img_arr.shape

(720, 1280, 3)

> imageio模块使用同一的API处理不同的数据类型。另外，使用TorchVision处理图像和视频数据也是一个很好的默认选择<p> 任何输出NumPy数组的库都可以获得一个PyTorch张量，唯一需要注意的是**维度布局**。处理图像数据的PyTorch模块要求张量排列为**$C\times H\times W$(分别表示通道、高度、宽度）**，而上方载入图片img_arr的排列为HWC，需要进行重新排列

### 4.1.3 改变布局

In [3]:
import torch
img = torch.from_numpy(img_arr)
out = img.permute(2, 0, 1)

> permute()方法是每个新的维度利用就唯独得到一个合适的布局。之前加载的图片的排列为HWC，需要转换到CHW，所以进行(2,0,1)的重排<br> 该操作并没有复制张量数据，而是让out使用和img相同的底层储存，并且在张量级别处理大小和步长信息。但需要主要的是，改变img中的像素也会导致out发生改变

> 可以沿着第一维批量存储图像，获得一个$N\times C\times H\times W$的张量<br> 与使用stack()构建张量相比，更有效的方式是预先分配适当大小的张量，并使用从目录中加载的图像填充，如：

In [5]:
batch_size = 3
batch = torch.zeros(batch_size, 3, 256, 256, dtype=torch.uint8) # 注意，此处表示期望每种颜色都以8位整数表示
# 从输入目录中加载所有的PNG图像
import os
data_dir = 'C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/image-cats/'
filenames = [name for name in os.listdir(data_dir)
             if os.path.splitext(name)[-1] == '.png']
for i, filename in enumerate(filenames):
    img_arr = imageio.imread(os.path.join(data_dir, filename))
    img_t = torch.from_numpy(img_arr)
    img_t = img_t.permute(2, 0, 1)
    img_t = img_t[:3] # 这里只保留了前3个通道
    batch[i] = img_t

## 4.2 三维图像：体数据

> imageio模块中的volread()函数加载一个CT扫描样本，该函数可以接受将目录作为参数，并将所有医学数字成像和通信（Digital Imaging and Communication in Medicine, DICOM）文件汇编为一个NumPy三维数组

In [6]:
import imageio

dir_path = "C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/volumetric-dicom/2-LUNG 3.0  B70f-04083/"
vol_arr = imageio.volread(dir_path, 'DICOM')
vol_arr.shape

Reading DICOM (examining files): 1/99 files (1.0%99/99 files (100.0%)
  Found 1 correct series.
Reading DICOM (loading data): 71/99  (71.799/99  (100.0%)


(99, 512, 512)

> 由于没有通道信息，布局与PyTorch期望的不同，必须使用unsqueeze()为通道维度留出空间

In [7]:
vol = torch.from_numpy(vol_arr).float()
vol = torch.unsqueeze(vol, 0)
vol.shape

torch.Size([1, 99, 512, 512])

## 4.3 表示表格数据

### 4.3.2 加载葡萄酒数据张量

> PyTorch提供Python自带csv模块、NumPy和pandas三种加载CSV文件的办法。pandas最节省时间和内存；PyTorch具有出色的NumPy互操作性，所以这里继续使用NumPy

In [9]:
import csv
wine_path = "C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/winequality-white.csv"
wineq_numpy = np.loadtxt(wine_path, dtype=np.float32, delimiter=";", skiprows=1) # 规定32位浮点数，分隔符为";"，不读取第1行
wineq_numpy

array([[ 7.  ,  0.27,  0.36, ...,  0.45,  8.8 ,  6.  ],
       [ 6.3 ,  0.3 ,  0.34, ...,  0.49,  9.5 ,  6.  ],
       [ 8.1 ,  0.28,  0.4 , ...,  0.44, 10.1 ,  6.  ],
       ...,
       [ 6.5 ,  0.24,  0.19, ...,  0.46,  9.4 ,  6.  ],
       [ 5.5 ,  0.29,  0.3 , ...,  0.38, 12.8 ,  7.  ],
       [ 6.  ,  0.21,  0.38, ...,  0.32, 11.8 ,  6.  ]], dtype=float32)

In [11]:
# 检查是否读取了所有数据
col_list = next(csv.reader(open(wine_path), delimiter=';'))
wineq_numpy.shape, col_list

((4898, 12),
 ['fixed acidity',
  'volatile acidity',
  'citric acid',
  'residual sugar',
  'chlorides',
  'free sulfur dioxide',
  'total sulfur dioxide',
  'density',
  'pH',
  'sulphates',
  'alcohol',
  'quality'])

In [13]:
# 继续将NumPy数组转换为PyTorch张量
wineq = torch.from_numpy(wineq_numpy)
wineq.shape, wineq.dtype

(torch.Size([4898, 12]), torch.float32)

### 4.3.3 表示分数

> 可以将分数视为一个连续变量，也可以将其视为一个标签<br> 通常会从输入数据的张量中删除分数，并将其保存在单独的张量中，就可以将分数作为基本事实，而不必将其输入模型中

In [14]:
data = wineq[:, :-1] # 选择所有行和删除最后一列（全部的自变量）
data, data.shape

(tensor([[ 7.0000,  0.2700,  0.3600,  ...,  3.0000,  0.4500,  8.8000],
         [ 6.3000,  0.3000,  0.3400,  ...,  3.3000,  0.4900,  9.5000],
         [ 8.1000,  0.2800,  0.4000,  ...,  3.2600,  0.4400, 10.1000],
         ...,
         [ 6.5000,  0.2400,  0.1900,  ...,  2.9900,  0.4600,  9.4000],
         [ 5.5000,  0.2900,  0.3000,  ...,  3.3400,  0.3800, 12.8000],
         [ 6.0000,  0.2100,  0.3800,  ...,  3.2600,  0.3200, 11.8000]]),
 torch.Size([4898, 11]))

In [15]:
target = wineq[:, -1] # 选择所有行和最后一列（因变量quality）
target, target.shape

(tensor([6., 6., 6.,  ..., 6., 7., 6.]), torch.Size([4898]))

In [16]:
target = wineq[:, -1].long() # 将target转换为整数向量
target

tensor([6, 6, 6,  ..., 6, 7, 6])

> 将原来的分数转换为整数向量可以实现将其转换为标签。如果目标张量是字符串标签，为每个字符串分配一个整数也可以采用这个做法

### 4.3.4 独热编码（one-hot）

> 如果分数是完全离散的，比如葡萄酒品种，采用独热编码更合适，因为没有隐含的顺序和距离<p> 可以使用scatter_()方法获得一个独热编码，该方法将沿着参数提供的索引方向将源张量的值填充到输入张量中

In [34]:
target_onehot = torch.zeros(target.shape[0], 10) # 生成一个4898*10维的全部由0填充的张量
target_onehot, target_onehot.shape

(tensor([[0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         ...,
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.]]),
 torch.Size([4898, 10]))

In [36]:
target_onehot.scatter_(1, target.unsqueeze(1), 1.0)

tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 1., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.]])

> scatter_方法的说明，target.scatter(dim, index, src)：<br>
>> `·`scatter_()的下划线是PyTorch中的约定，表明该方法不会返回一个新的张量，而是在适当的位置进行修改<br> `·`dim参数用于指定轴方向，定义了填充方式，对于二维张量，0表示逐列进行行填充，1表示逐列进行行填充<br> `·`index表示按照轴方向，在target中需要填充的位置，要求与散射到的元素的张量具有相同的维度，因为target_onehot有2个维度(4898*10)，但是target只有一个维度(4898)，所以使用unsqueeze()为taget添加一个额外的虚拟维度<br> `·`src表示要散射的元素的张量，或要散射的单个标量，在这里为1.0

### 4.3.5 数据标准化

In [38]:
data_mean = torch.mean(data, dim=0) # 针对变量（列，dim=0)求均值
data_mean

tensor([6.8548e+00, 2.7824e-01, 3.3419e-01, 6.3914e+00, 4.5772e-02, 3.5308e+01,
        1.3836e+02, 9.9403e-01, 3.1883e+00, 4.8985e-01, 1.0514e+01])

In [39]:
data_var = torch.var(data, dim=0) # 针对变量（列，dim=0)求方差
data_var

tensor([7.1211e-01, 1.0160e-02, 1.4646e-02, 2.5726e+01, 4.7733e-04, 2.8924e+02,
        1.8061e+03, 8.9455e-06, 2.2801e-02, 1.3025e-02, 1.5144e+00])

In [40]:
data_normalized = (data-data_mean)/torch.sqrt(data_var)
data_normalized

tensor([[ 1.7208e-01, -8.1761e-02,  2.1326e-01,  ..., -1.2468e+00,
         -3.4915e-01, -1.3930e+00],
        [-6.5743e-01,  2.1587e-01,  4.7996e-02,  ...,  7.3995e-01,
          1.3422e-03, -8.2419e-01],
        [ 1.4756e+00,  1.7450e-02,  5.4378e-01,  ...,  4.7505e-01,
         -4.3677e-01, -3.3663e-01],
        ...,
        [-4.2043e-01, -3.7940e-01, -1.1915e+00,  ..., -1.3130e+00,
         -2.6153e-01, -9.0545e-01],
        [-1.6054e+00,  1.1666e-01, -2.8253e-01,  ...,  1.0049e+00,
         -9.6251e-01,  1.8574e+00],
        [-1.0129e+00, -6.7703e-01,  3.7852e-01,  ...,  4.7505e-01,
         -1.4882e+00,  1.0448e+00]])

### 4.3.6 通过阈值进行判断

In [42]:
target # 可以通过对target（原数据中的quality）设置阈值进行分类

tensor([6, 6, 6,  ..., 6, 7, 6])

In [43]:
bad_indexes = target<=3 # 将小于等于3的归为bad，也可以用torch.le(target,3)完成
bad_indexes, bad_indexes.shape, bad_indexes.dtype, bad_indexes.sum()

(tensor([False, False, False,  ..., False, False, False]),
 torch.Size([4898]),
 torch.bool,
 tensor(20))

> 根据bad_indexes.sum()可以看到，只有20个记录被设置为True<p> 这实际上是过滤张量data，使其仅包含索引张量中与True对应的项或行。张量bad_indexes与张量target具有相同的形状，其值为True或False取决于阈值与原始张量target的比较结果

In [44]:
bad_data = data[bad_indexes]
bad_data.shape

torch.Size([20, 11])

##### 通过阈值将葡萄酒分为3类

In [46]:
bad_data = data[target <= 3]
mid_data = data[(target > 3) & (target < 7)]
good_data = data[target >= 7]
bad_mean = torch.mean(bad_data, dim=0)
mid_mean = torch.mean(mid_data, dim=0)
good_mean = torch.mean(good_data, dim=0)
for i, args in enumerate(zip(col_list, bad_mean, mid_mean, good_mean)):
    print('{:2} {:20} {:6.2f} {:6.2f} {:6.2f}'.format(i, *args))

 0 fixed acidity          7.60   6.89   6.73
 1 volatile acidity       0.33   0.28   0.27
 2 citric acid            0.34   0.34   0.33
 3 residual sugar         6.39   6.71   5.26
 4 chlorides              0.05   0.05   0.04
 5 free sulfur dioxide   53.33  35.42  34.55
 6 total sulfur dioxide 170.60 141.83 125.25
 7 density                0.99   0.99   0.99
 8 pH                     3.19   3.18   3.22
 9 sulphates              0.47   0.49   0.50
10 alcohol               10.34  10.26  11.42


In [47]:
# 从上表可以看出，似乎劣质葡萄酒的二氧化硫含量更高
# 可以尝试通过二氧化硫设置阈值来对葡萄酒进行判断
total_sulfur_threshold = 141.83
total_sulfur_data = data[:, 6]
predicted_indexes = torch.lt(total_sulfur_data, total_sulfur_threshold) #torch.lt是表示data中大于threshold的，和torch.le对应
predicted_indexes.shape, predicted_indexes.dtype, predicted_indexes.sum()

(torch.Size([4898]), torch.bool, tensor(2727))

> 从上面可以看出，有2727个二氧化硫量大于141.83，被判断为高质量葡萄酒。接下来和真正的高品质葡萄酒（quality大于5）来对比

In [48]:
actual_indexes = target>5
actual_indexes.shape, actual_indexes.dtype, actual_indexes.sum()

(torch.Size([4898]), torch.bool, tensor(3258))

> 可以看出，比通过二氧化硫阈值判断的多出500多瓶

In [49]:
n_matches = torch.sum(actual_indexes & predicted_indexes).item()
n_predicted = torch.sum(predicted_indexes).item()
n_actual = torch.sum(actual_indexes).item()
n_matches, n_matches/n_predicted, n_matches/n_actual

(2018, 0.74000733406674, 0.6193984039287906)

> 正确判断出2018瓶葡萄酒，只识别出61.94%

## 4.4 处理时间序列

### 4.4.1 增加时间维度

![image.png](attachment:image.png)

In [55]:
bikes_numpy = np.loadtxt("C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/hour-fixed.csv",
                        dtype=np.float32,
                        delimiter=",",
                        skiprows=1,
                        converters={1: lambda x: float(x[8:10])}) # 将日期字符串转换为与第1列中的月和日对应的数字

In [59]:
bikes = torch.from_numpy(bikes_numpy)
bikes

tensor([[1.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 3.0000e+00, 1.3000e+01,
         1.6000e+01],
        [2.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 8.0000e+00, 3.2000e+01,
         4.0000e+01],
        [3.0000e+00, 1.0000e+00, 1.0000e+00,  ..., 5.0000e+00, 2.7000e+01,
         3.2000e+01],
        ...,
        [1.7377e+04, 3.1000e+01, 1.0000e+00,  ..., 7.0000e+00, 8.3000e+01,
         9.0000e+01],
        [1.7378e+04, 3.1000e+01, 1.0000e+00,  ..., 1.3000e+01, 4.8000e+01,
         6.1000e+01],
        [1.7379e+04, 3.1000e+01, 1.0000e+00,  ..., 1.2000e+01, 3.7000e+01,
         4.9000e+01]])

### 4.4.2 按时间段调整数据

> 顺序的时间数据给我们机会去发现跨越时间的因果关系。我们可能想要把2年的数据分为更细的观察周期，比如按天划分，就有了序列长度为$L$（24小时）、样本数量为$N$（原始数据17520个样本按24小时分，共730个样本）、每个样本由$C$个变量组成的数据，该数据维度为3，形状为$N \times C \times L$<p> 为了获得每日小时数据集，所要做的就是以24小时为单位来查看同一个张量

In [60]:
bikes.shape, bikes.stride()

(torch.Size([17520, 17]), (17, 1))

> 有17520个小时，17列。现在重新调整数据，让它有3个轴，即日、小时，然后是17列

In [61]:
daily_bikes = bikes.view(-1, 24, bikes.shape[1])
daily_bikes.shape, daily_bikes.stride()

(torch.Size([730, 24, 17]), (408, 17, 1))

> （1）bikes.shape[1]是17，即bikes张量的列的数量<br> （2）在一个张量上调用view()会返回一个新的张量，该张量会不在改变存储的情况下改变维度和步长信息。这意味着我们可以以0为代价重新排列张量，因为没有数据会被复制。对view()的调用要求我们为返回的张量提供新的形状。我们使用-1作为占位符，占位符的数量反映了在给定其他维度和原始元素数量的情况下，还剩下多少索引<br> （3）对于张量daily_bikes来说，其步长告诉我们沿着小时维度（第2个维度）前进1需要在存储（或一组列）中前进17个位置，而沿着日维度（第1个维度）前进需要我们前进一定数量的元素，这个长度等于存储中的一行的长度乘以24，这里长度为408，即17*24<p> 我们可以看到，最右边的维度是原始数据集中的列数。中间的维度为时间，并将其分割成连续的24小时。换句话说，对于C个通道（17个变量），有N个序列（730个序列），每天L小时（24小时），如果要形成$N\times C\times L$，还需要转置张量

### 4.4.3 将变量转换为one-hot编码并归一化处理

> 天气状况变量分为4个级别，1表示晴天...如果决定使用分类变量，将变量转换为one-hot，并将其余数据集连接

In [82]:
first_day = bikes[:24].long() # 前24小时（第一天）的样本转化为long
weather_onehot = torch.zeros(first_day.shape[0], 4)
first_day[:, 9]

tensor([1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 2, 2, 2, 2])

In [83]:
# 根据每行对应的级别将1散置到矩阵中
weather_onehot.scatter_(dim=1, index=first_day[:, 9].unsqueeze(1).long()-1, value=1.0) # unsqueeze(1)-1的原因是天气状况级别为1-4，而索引是从0开始的

tensor([[1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 1., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.],
        [0., 1., 0., 0.]])

In [84]:
# 使用cat()函数将矩阵连接到原始数据集
torch.cat((bikes[:24], weather_onehot), 1)[:1]

tensor([[ 1.0000,  1.0000,  1.0000,  0.0000,  1.0000,  0.0000,  0.0000,  6.0000,
          0.0000,  1.0000,  0.2400,  0.2879,  0.8100,  0.0000,  3.0000, 13.0000,
         16.0000,  1.0000,  0.0000,  0.0000,  0.0000]])

> 也可以对重塑的张量daily_bikes做同样的操作，形状记为$(B,C,L)$，其中$L=24$

In [130]:
daily_weather_onehot = torch.zeros(daily_bikes.shape[0], 4, daily_bikes.shape[1])
daily_weather_onehot.shape

torch.Size([730, 4, 24])

In [131]:
daily_weather_onehot.scatter_(1, daily_bikes[:,:,9].long().unsqueeze(1)-1, 1.0)
daily_weather_onehot.shape

torch.Size([730, 4, 24])

In [136]:
# 沿着C维进行拼接
daily_weather_onehot = daily_weather_onehot.transpose(1, 2)
daily_bikes = torch.cat((daily_bikes, daily_weather_onehot), dim=2)

In [138]:
# 标准化
temp = daily_bikes[:,10,:]
temp_min = torch.min(temp)
temp_max = torch.max(temp)
daily_bikes[:,10,:] = ((daily_bikes[:,10,:]-temp_min)/(temp_max-temp_min))

## 4.5 表示文本

### 4.5.2 独热编码字符

In [140]:
with open("C:/Users/ylc/GitHub/Learning/Python/DeepLearningWithPyTorch/1342-0.txt", encoding='utf8') as f:
    text = f.read()
lines = text.split('\n')
line = lines[200]
line

'“Impossible, Mr. Bennet, impossible, when I am not acquainted with him'

In [141]:
# 创建一个张量，它能够容纳整行字符的独热编码的总数
letter_t = torch.zeros(len(line), 128) # 这里硬编码为128是由于ASCII的限制
letter_t.shape

torch.Size([70, 128])

In [142]:
# letter_t用于保存每行字符的独热编码
# 现在我们只需要在每一行的正确位置上设置一个1，以便每一行都代表正确的字符，必须设置为1的索引对应编码中字符的索引
for i, letter in enumerate(line.lower().strip()):
    letter_index = ord(letter) if ord(letter) < 128 else 0 # 文本使用定向型双引号，不是有效的ASCII，在这里屏蔽掉
    letter_t[i][letter_index] == 1

### 4.5.3 独热编码整个词

In [148]:
# 定义clean_words()函数，接收文本并以小写字符形式返回，同时去掉标点符号
def clean_words(input_str):
    punctuation = ".,;:''!?""“”_-"
    word_list = input_str.lower().replace("\n", " ").split()
    word_list = [word.strip(punctuation) for word in word_list]
    return word_list
words_in_line = clean_words(line)
line, words_in_line

('“Impossible, Mr. Bennet, impossible, when I am not acquainted with him',
 ['impossible',
  'mr',
  'bennet',
  'impossible',
  'when',
  'i',
  'am',
  'not',
  'acquainted',
  'with',
  'him'])

In [149]:
# 在编码中建立一个单词到索引的映射
word_list = sorted(set(clean_words(text)))
word2index_dict = {word: i for (i, word) in enumerate(word_list)}
len(word2index_dict), word2index_dict['impossible']

(7215, 3366)

In [150]:
# word2index_dict现在是一个字典，单词为键
# 创建一个空向量，并为句子中的单词分配一个独热编码的值
word_t = torch.zeros(len(words_in_line), len(word2index_dict))
for i, word in enumerate(words_in_line):
    word_index = word2index_dict[word]
    word_t[i][word_index] = 1
    print('{:2} {:4} {}'.format(i, word_index, word))
print(word_t.shape)

 0 3366 impossible
 1 4270 mr
 2  793 bennet
 3 3366 impossible
 4 7035 when
 5 3287 i
 6  394 am
 7 4400 not
 8  218 acquainted
 9 7103 with
10 3187 him
torch.Size([11, 7215])


### 4.5.4 文本嵌入

> 我们该如何将编码压缩到一个更易于管理的大小，并限制其增长？我们可以用浮点数向量来代替很多0和一个1向量<br> 原则上，我们可以简单地遍历词汇表，为每个单词生成一组由100个随机浮点数组成的集合。这是可行的，因为我们可以将一个非常大的词汇塞进100个数字中，但这将舍弃了任何基于意义或上下文的单词之间的距离概念。使用这个词嵌入的模型在其输入向量中将不得不处理很少的结构<br> 一个理想的解决方案是以这样一种方式生成嵌入，即把在相似上下文中使用的单词映射到嵌入的邻近区域<p> 嵌入通常是使用神经网络生成的，它试图从句中的邻近单词（上下文）中预测一个单词<br> 结果嵌入一个有趣的方面是，相似的单词最终不仅聚集在一起，而且还与其他单词具有一致的空间关系

### 4.5.5 作为蓝图的文本嵌入

> 当词汇表中的大量条目必须用数字向量表示时，嵌入是必不可少的工具