## 2.1 数据操作

### 生成tensor

In [5]:
import torch

In [7]:
# 生成tensor：基于range
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [11]:
# 显示tensor的shape
x.shape

torch.Size([12])

In [13]:
# 显示tensor的元素个数
x.numel()

12

In [None]:
# reshape
x = x.reshape(3,4)
x

In [19]:
# zeros
torch.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [20]:
# ones
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [21]:
# 基于list生成tensor
list = [[2,1,4,3], [1,2,3,4], [4,3,2,1]]
torch.tensor(list)

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

### 运算符

In [28]:
# 基本运算符
x = torch.tensor([1.0, 2, 3, 4])
y = torch.tensor([2,2,2,2])
print(x+y)
print(x-y)
print(x*y)
print(x/y)
print(x**y)

tensor([3., 4., 5., 6.])
tensor([-1.,  0.,  1.,  2.])
tensor([2., 4., 6., 8.])
tensor([0.5000, 1.0000, 1.5000, 2.0000])
tensor([ 1.,  4.,  9., 16.])


In [31]:
# e^x
x = torch.tensor([1,2,3,4])
x = torch.exp(x)
print(x)

tensor([ 2.7183,  7.3891, 20.0855, 54.5981])


In [33]:
# cat:连接两个tensor
X = torch.arange(12, dtype=torch.float32).reshape(3,4)
list = [[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]
Y = torch.tensor(list)
print(torch.cat((X,Y), dim=0))
print(torch.cat((X,Y), dim=1))

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])
tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])


In [34]:
# 判断是否相等 
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [35]:
# 求和
X.sum()

tensor(66.)

In [38]:
# 广播机制
x = torch.arange(3).reshape((3,1))
y = torch.arange(2).reshape((1,2))
print(x, y)

x+y

tensor([[0],
        [1],
        [2]]) tensor([[0, 1]])


tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 索引和切片

In [40]:
# 读取
print(X)
print(X[-1])
print(X[1:3])

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])
tensor([ 8.,  9., 10., 11.])
tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])


In [42]:
# 写入
X[0, 3] = 9
print(X)
X[1:3, :] = 12
print(X)

tensor([[ 0.,  1.,  2.,  9.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])
tensor([[ 0.,  1.,  2.,  9.],
        [12., 12., 12., 12.],
        [12., 12., 12., 12.]])


In [50]:
# 节省内存

# 以下将为新结果分配内存（如果旧内存没有被其他地方使用，python会自动释放）
before = id(Y) # Y的内存地址，类似于c++中的指针
Y = Y + X
id(Y) == before

# 以下将执行原地操作：可防止后续使用原来Y的地址，但Y的地址已换
z = torch.zeros_like(Y)
print('id(z):', id(z))
z[:] = X+Y
print('id(z):', id(z))

# 若后续计算没有重复使用X，可通过如下操作减少内存开销（此处前后内存地址相同）
print(id(X))
X[:] = X+Y
print(id(X))
X += Y
print(id(X))

id(z): 4633246592
id(z): 4633246592
4633090704
4633090704
4633090704


In [56]:
# 转换为其他python对象（Numpy张量 & python标量）

# Numpy张量
print(X)
A = X.numpy()
print(A)
B = torch.tensor(A)
print(B)
type(A), type(B)

# 大小为1的张量转换为python标量
a = torch.tensor([3.333])
a, a.item(), float(a), int(a)

tensor([[  366.,  1027.,  2420.,  8145.],
        [10311., 10494., 10677., 10860.],
        [10860., 10677., 10494., 10311.]])
[[  366.  1027.  2420.  8145.]
 [10311. 10494. 10677. 10860.]
 [10860. 10677. 10494. 10311.]]
tensor([[  366.,  1027.,  2420.,  8145.],
        [10311., 10494., 10677., 10860.],
        [10860., 10677., 10494., 10311.]])


(tensor([3.3330]), 3.3329999446868896, 3.3329999446868896, 3)

## 2.2 数据预处理

In [61]:
# 创建一个人工数据集，并存入csv文件

import os
print(os.path.abspath('.'))
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as fw:
    fw.write('NumRoom,Alley,Prices\n')
    fw.write('NA,Pave,12500\n')
    fw.write('2,NA,10060\n')
    fw.write('4,NA,11000\n')
    fw.write('NA,NA,10000\n')
print('success!')

/Users/tanfangyuan/study/hands-on-learning-DL/practice-in-d2l
success!


In [67]:
# 读取csv文件
import pandas as pd

data = pd.read_csv('../data/house_tiny.csv')
data

Unnamed: 0,NumRoom,Alley,Prices
0,,Pave,12500
1,2.0,,10060
2,4.0,,11000
3,,,10000


In [70]:
# 处理缺失值

inputs, outputs = data.iloc[:, 0:2], data.iloc[:,2]
# 对于数值类型的缺失值，可使用插值 或者 删除的方法（此处将其插值为mean）
print(inputs)
inputs = inputs.fillna(inputs.mean())
print(inputs)

# 对于字符串类型的缺失值，可以使用独热编码将NA也理解为一种类型进行转换
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)b

   NumRoom Alley
0      NaN  Pave
1      2.0   NaN
2      4.0   NaN
3      NaN   NaN
   NumRoom Alley
0      3.0  Pave
1      2.0   NaN
2      4.0   NaN
3      3.0   NaN
   NumRoom  Alley_Pave  Alley_nan
0      3.0           1          0
1      2.0           0          1
2      4.0           0          1
3      3.0           0          1


  inputs = inputs.fillna(inputs.mean())


In [75]:
# 转换为张量格式
# tips: 传统的python tensor中会使用64位浮点数，但64位在深度学习中速度较慢 在实践中一般使用32位浮点数
print(type(inputs), type(inputs.values))
x,y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x,y

<class 'pandas.core.frame.DataFrame'> <class 'numpy.ndarray'>


(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([12500, 10060, 11000, 10000]))

### QA

In [76]:
# reshape和view的区别（两者没有本质区别）
a = torch.arange(12)
print(a)
b = a.reshape((3,4)) # 此处b通过reshape操作 创建了a的view：b的更改会影响到a
b[:] = 2
print(a)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
tensor([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])


【tensor和array的区别】
tensor是数学上的概念：张量
array是计算机上的概念：数组
=》tensor和array没有本质区别