# 数据操作
### 1.入门

In [3]:
#导入torch
import torch

In [3]:
#使用arange创建一个行向量x，包含以0开始的前12个整数
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [4]:
#通过张量的shape属性访问张量（沿每个轴的长度）的形状
x.shape

torch.Size([12])

In [5]:
#查询张量里面元素的总数
x.numel()

12

In [6]:
#改变一个张量的形状而不该百年元素数量和元素值，可以调用reshape函数

X = x.reshape(3,4)  #张量的形状发生了改变，但元素值没有变，也就是张量的大小没有变
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [8]:
#不需要手动指定每个维度改变形状，可以通过-1调用自动计算维度功能

X1 = x.reshape(-1,3)   #手动指定三列
X2 = x.reshape(2,-1)   #手动指定两行
X1,X2

(tensor([[ 0,  1,  2],
         [ 3,  4,  5],
         [ 6,  7,  8],
         [ 9, 10, 11]]),
 tensor([[ 0,  1,  2,  3,  4,  5],
         [ 6,  7,  8,  9, 10, 11]]))

In [9]:
#创建元素全为0的张量

torch.zeros((2,3,4))   #两个三行四列的元素全为0的张量

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [10]:
#创建元素全为1的张量

torch.ones((2,3,4))   #两个三行四列的元素全为1的张量

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [11]:
#通过从某个特定概率分布中随机采样得到张量中每个元素的值

torch.randn(3,4)   #每个元素都从均值为0，标准差为1的标准高斯分布（正态分布）中随机采样

tensor([[-1.3396,  0.1991, -0.4646,  0.4261],
        [ 0.1745, -0.7675,  2.1191, -0.4626],
        [-0.9163, -0.5669, -0.7174, -0.3962]])

In [13]:
#还可以通过提供包含数值的python列表（或嵌套列表），为元素赋值

X1 = torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])   #最外层的列表对应轴0，内层的列表对应于轴1
X2 = torch.tensor([[[2,1,4,3],[1,2,3,4],[4,3,2,1]]])   #三维张量
X1,X2

(tensor([[2, 1, 4, 3],
         [1, 2, 3, 4],
         [4, 3, 2, 1]]),
 tensor([[[2, 1, 4, 3],
          [1, 2, 3, 4],
          [4, 3, 2, 1]]]))

### 2.运算符

In [14]:
#在同一形状的任意俩个张量上按元素进行计算操作

x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y       #**是幂运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [16]:
#“按元素”方式可以应用更多的计算

torch.exp(x)     #e的x次方

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [17]:
#除了按元素计算，还可以执行线性代数运算，包括向量点积和矩阵乘法

In [4]:
#可以将多个张量连结在一起，把它们端对端地叠起来形成更大的张量。

X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X1 = torch.cat((X, Y),dim=0)      #第一个沿行（轴0，形状的第一个元素）连结两个矩阵
X2 = torch.cat((X, Y),dim=1)      #第一个沿列（轴1，形状的第二个元素）连结两个矩阵
X1,X2

#轴0的长度（6 = 3 + 3），轴1的长度（8 = 4 + 4）

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [17]:
#通过逻辑运算符构建二元张量
X > Y
#对于每个位置，如果X和Y在该位置相等，则相应值为1，逻辑语句为真，否则为0，逻辑语句为否

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [21]:
#对张量中的所有元素进行求和，会产生一个单元素张量
X.sum()

tensor(66.)

### 3.广播机制

In [22]:
#形状不同的张量可以通过调用广播机制进行按元素操作
#大多数情况下会沿着数组中长度为1的轴进行广播

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
c = torch.ones((3, 3, 4))
a, b, c

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]),
 tensor([[[1., 1., 1., 1.],
          [1., 1., 1., 1.],
          [1., 1., 1., 1.]],
 
         [[1., 1., 1., 1.],
          [1., 1., 1., 1.],
          [1., 1., 1., 1.]],
 
         [[1., 1., 1., 1.],
          [1., 1., 1., 1.],
          [1., 1., 1., 1.]]]))

In [23]:
#由于a和b形状不匹配，如果让它们相加，就会广播为更大的3 X 2矩阵，将行和列进行复制

a + b,a + c

(tensor([[0, 1],
         [1, 2],
         [2, 3]]),
 tensor([[[1., 1., 1., 1.],
          [2., 2., 2., 2.],
          [3., 3., 3., 3.]],
 
         [[1., 1., 1., 1.],
          [2., 2., 2., 2.],
          [3., 3., 3., 3.]],
 
         [[1., 1., 1., 1.],
          [2., 2., 2., 2.],
          [3., 3., 3., 3.]]]))

### 4.索引和切片

In [6]:
#和其他python数组一样，张量中的元素可以通过索引访问

X[-1],X[1:3]
#[-1]选择最后一个元素，[1:3]选择第二个和第三个元素

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [7]:
#通过指定索引来将元素写入矩阵

X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [9]:
#为多个元素赋值相同的值，只需要索引所有元素，然后赋值。

X[0:2, :] = 12
X
#[0:2, :]访问第一行和第二行，其中“：”代表沿列的所有元素

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

### 5.节省内存

In [11]:
#运行一些操作可能会导致为新结果分配内存

before = id(Y)
Y = Y + X
id(Y) == before
#重新分配了Y的位置，id查不到原来的位置

False

In [12]:
#执行原地操作

Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):',id(Z))
#先创建一个新的矩阵Z，其形状和Y相同，使用zeros_like分配为全0

id(Z): 2770880679584
id(Z): 2770880679584


In [13]:
#如果后续计算没有重复使用，可以使用+=减少操作的内存开销

before = id(X)
X += Y
id(X) == before

True

### 6.转换为其他python对象

In [14]:
#张量转换为Numpy张量（ndarray）很容易，反之也很容易。

A = X.numpy()
B = torch.tensor(A)
type(A),type(B)

(numpy.ndarray, torch.Tensor)

In [15]:
#要将大小为1的张量转换为python标量，可以调用item函数或python的内置函数

a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 数据预处理
### 1.读取数据集

In [25]:
#数据分析工具通常使用pandas软件包

#创建一个人工数据集并存储在CSV（逗号分隔值）文件中

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')     #列名
    f.write('NA,Pave,127500\n')           #每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [29]:
#要从创建的csv文件中加载原始数据集，导入pandas包调用read_csv函数

import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [27]:
pip install pandas

Collecting pandas
  Downloading pandas-1.4.1-cp38-cp38-win_amd64.whl (10.6 MB)
Collecting pytz>=2020.1
  Downloading pytz-2021.3-py2.py3-none-any.whl (503 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-1.4.1 pytz-2021.3
Note: you may need to restart the kernel to use updated packages.


### 2.处理缺失值

In [30]:
#“NaN”代表缺失值，为了处理缺失的数据，典型的方法包括插值法和删除法
#插值法用一个替代值弥补缺失值
#删除法则直接忽略缺失值

#插值法通过位置索引iloc，将data分为inputs和outputs，前者为data的前两项，后者为data的最后一列
#对于inputs中缺少的数值，用同一列的均值替换“NaN”

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


  inputs = inputs.fillna(inputs.mean())


In [31]:
#pandas自动将Alley列转换为两列，分别设值为0和1

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


### 3.转换为张量格式

In [32]:
#inputs和outputs中的条目都是数值类型，可以转换为张量格式

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))