# 数据操作-数据预处理

## 一、数据操作实现

### 1.1 什么是张量
张量（tensor）是PyTorch中的基本数据结构，它是一个多维数组。张量可以是向量（一维）、矩阵（二维）或更高维度的数组。在PyTorch中，张量可以用来表示和处理各种数据，包括图像、文本、声音等。在代码中，x是一个向量，也是一个张量。

### 1.2 张量的创建

In [1]:
# 导入torch
import torch
# 创建一个向量，在PyTorch中，向量是一维的张量
x = torch.arange(12)
# 访问创建的向量
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
# 使用shape属性来访问张量的形状
x.shape

torch.Size([12])

In [6]:
# 使用numel()函数查看张量的元素总个数
x.numel()

12

要改变张量的形状而不改变其元素数量和元素值，可以调用reshape函数

In [7]:
# 改变为3行4列的矩阵
x.reshape(3, 4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [12]:
# 创建元素为全0的三维张量，其中第一个维度的大小为2，第二个维度的大小为3，第三个维度的大小为4。
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [11]:
# 也可以创建元素为全1的三维张量
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [14]:
# 创建一个包含指定值的二维张量
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

In [15]:
# 创建一个包含指定值的三维张量
torch.tensor([[[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]])

tensor([[[2, 1, 4, 3],
         [1, 2, 3, 4],
         [4, 3, 2, 1]]])

In [16]:
# 查看该三维张量的形状，其中第一个维度的大小为1，第二个维度的大小为3，第三个维度的大小为4。
torch.tensor([[[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]]).shape

torch.Size([1, 3, 4])

### 1.3 张量的计算

常见的标准运算符运算（+、-、*、/、**）都可以被升级为按元素运算。如下

In [2]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])

# ** 是求幂运算，如 8 ** 2 代表求8的2次方
x + y, x - y, x * y, x / y, x ** y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

我们也可以把多个张量放连结到一起

In [3]:
# 从0到11生成一个长为12的一维张量，然后reshape成3行4列张量
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
# y的形状和x一样
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
# 在第0个纬度合并，在第1个纬度合并
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

可以通过逻辑运算符构建二维张量，例如在以上代码执行之后，执行如下代码，判断 X 是否等于 Y

In [4]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对张量中的所有元素进行求和产生一个只有一个元素的张量

In [5]:
X.sum()

tensor(66.)

即使形状不同，我们仍然可以通过调用广播机制（broadcasting mechanism）来执行按元素操作。

In [9]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [8]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 1.4 元素的访问

可以使用`[-1]`选择最后一个元素，可以用`[1:3]`选择第二个和第三个元素（注意，第一个索引是0）

In [10]:
X[-1], X[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

除此之外，我们还可以指定索引来将元素写入矩阵

In [11]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

为多个元素赋相同的值    

In [12]:
X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

运行一些操作可能会导致为新结果分配的内存，如下示例代码

In [13]:
# 先存储 Y 的内存地址
before = id(Y)
# 再给变量 Y 赋值
Y = Y + X
# 检测变量 Y 的最新地址是否等于之前的地址
id(Y) == before

False

在Python中，原地操作是指在不创建新对象的情况下，直接修改原始对象的值或状态。这意味着在原地操作之后，原始对象的值会被修改，而不是创建一个新的对象。以下代码执行原地操作

In [14]:
# 下一行代码可实现，Z的元素和数据类型和Y一样，但是都是0
Z = torch.zeros_like(Y)
print('id(Z)', id(Z))
# 原地操作
Z[:] = X + Y
print('id(Z)', id(Z))

id(Z) 140366506858672
id(Z) 140366506858672


如果在后续的计算中没有重复使用`X`，我们也可以使用`X[:] = X + Y`或`X += Y`来减少操作内存的开销。

In [15]:
before = id(X)
X += Y
id(X) == before

True

Numpy是python里最常见的多元数组运算框架，可以将Pytorch的张量转为Numpy张量

In [16]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

可以将大小为1的张量转换为 Python 标量

In [17]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 二、数据预处理实现

数据预处理是指在将数据应用于机器学习或数据分析模型之前，对原始数据进行清洗、转换和规范化的过程。后续可通过机器学习的方法能够处理数据。

示例：我们先创建一个简单的人工数据集，并使用csv文件中，如下代码

In [18]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n') # 每一行表示一个样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

从创建的csv文件中夹在原始数据集

In [19]:
# 如果没有安装pandas，只需取消对以下行的注视：
# !pip install pandas
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


为了处理缺失的数据，典型的方法包括插值和删除，这里，我们将考虑插值。在这里我们先不做预测，我们先使用简单的方法把缺失的数据补起来，如下示例

In [20]:
# 将数据的前两列作为输入变量，第三列作为输出变量，存储在inputs和outputs变量中
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# fillna()函数将数据中的缺失值替换为指定的值，这里使用inputs的均值作为替换值。
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


对于`inputs`中的类别值或离散值，我们将“NaN”这类非数值类数据，可以视为一个类别。

独热编码是一种将离散型特征转换为二进制向量的方法，将每个离散值转换为一个新的二进制特征列。dummy_na=True参数表示对缺失值也进行独热编码，并生成一个额外的特征列来表示缺失值。以下代码的功能是对输入数据进行独热编码

In [21]:
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


现在`inputs`和`outputs`中所有的条目都是数值类型，他们可以相互转换为张量格式

In [22]:
import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

`torch.float64`是pytorch的64位浮点数类型，传统情况下，python一般会默认使用64位浮点数。但是64位浮点数技术速度较慢，对深度学习来说，我们通常使用32位浮点数。

以上就是一个简单的示例，演示了如何将原始数据导入系统中，并将其转换为张量的过程。·