## 2.1 数据操作

### 2.1.1 张量创建


In [1]:
import torch
import numpy as np

In [2]:
x=torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
print(x.shape)

x.numel()     #获得张量中元素的个数

torch.Size([12])


12

In [4]:
y=x.reshape(3,4)        #改变形状，可用-1代替其中一个来自动计算
print(y)
print(y.numel())
print(y.shape)


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
12
torch.Size([3, 4])


In [5]:
print(torch.zeros((2,3,4)))
print('')
print(torch.ones((2,3,5)))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

tensor([[[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],

        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]]])


In [6]:
torch.randn(3,4)       #服从(0，1)高斯分布的随机数

tensor([[-0.3285,  0.4744, -0.7421, -0.1868],
        [ 1.3066,  0.2945,  1.5661, -0.9134],
        [ 1.4464,  0.4529, -0.1922, -0.2302]])

In [7]:
#直接创建
torch.tensor([[1,2,34],
              [2,3,55],
              [3,44,55]])

tensor([[ 1,  2, 34],
        [ 2,  3, 55],
        [ 3, 44, 55]])

### 2.1.2 运算符

In [8]:
#同形状的张量按元素计算
x=torch.tensor([1.0,2,4,8])
y=torch.tensor([2,2,2,2])
x+y,x-y,x*y,x/y,x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [9]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [10]:
X=torch.arange(12,dtype=torch.float16).reshape((3,4))
Y=torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]])
torch.cat((X,Y),dim=0),torch.cat((X,Y),dim=1)         #合并张量，dim=0是将第一个元素对应的加起来，即3+3；dim=1是将第二个元素对应的加起来

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [11]:
X==Y       #判断元素是否相等

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [12]:
X.sum()    #所有元素求和，产生一个单位张量

tensor(66., dtype=torch.float16)

### 2.1.3 广播机制

In [13]:
a=torch.arange(3).reshape((3,1))
b=torch.arange(2).reshape((1,2))
a,b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [14]:
a+b
#规则1：如果两个数组的维度数不同，会在维度较少的数组形状前面补1。
# 规则2：如果两个数组在某个维度上的大小相同，或者其中一个数组在该维度上的大小为1，那么这两个数组在这个维度上是兼容的。
# 规则3：数组可以沿着大小为1的维度进行扩展，以匹配另一个数组对应维度的大小。
# 简单来说：两个数组从最后一个维度开始向前逐维比较，如果维度大小相等或其中一个为1，则可以广播。如果有一个维度不相等且没有一个数组维度是1，则不能广播。


tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 2.1.4 索引和切片

In [15]:
X,Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]], dtype=torch.float16),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

In [16]:
X[-1],X[1:3]

(tensor([ 8.,  9., 10., 11.], dtype=torch.float16),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]], dtype=torch.float16))

In [17]:
X[1,2]=9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]], dtype=torch.float16)

In [18]:
X[0:2,:]=12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]], dtype=torch.float16)

### 2.1.5 节省内存

In [19]:
before=id(Y)
Y=Y+X
id(Y)==before

False

In [20]:
Z=torch.zeros_like(Y)
print('old id(Z)',id(Z))
Z[:]=X+Y
print('new id(Z)',id(Z))

old id(Z) 2060075996560
new id(Z) 2060075996560


In [21]:
before=id(X)
X += Y
id(X)==before

True

### 2.1.6  数据类型转换

In [22]:
A=X.numpy()
print(type(A))
B=torch.tensor(A)
print(type(B))

<class 'numpy.ndarray'>
<class 'torch.Tensor'>


In [23]:
a=torch.tensor([3.5])
a,a.item(),float(a),int(a)   #将大小为1的张量转换为python标量

(tensor([3.5000]), 3.5, 3.5, 3)

## 2.2 数据预处理

### 2.2.1 读取数据集


In [24]:
import os
import pandas as pd
# print(os.getcwd())


os.makedirs(os.path.join(os.getcwd(),'data'),exist_ok=True)  #os.makedirs()：递归创建目录（可以创建多级目录）.exist_ok=True：如果目录已存在不会报错，如果为False则已存在时会抛出异常
data_file=os.path.join(os.getcwd(),'data','house_tiny.csv')
with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名 
    f.write('NA,Pave,127500\n') # 每行表示一个数据样本 
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

data=pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


### 2.2.2 处理缺失值

In [25]:
inputs,outputs=data.iloc[:,0:2],data.iloc[:,2]
# print(inputs.iloc[:,0])
inputs=inputs.fillna((inputs.iloc[:,0:1]).mean())      #这里按书上的代码行不通？
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [26]:
inputs=pd.get_dummies(inputs,dummy_na=True,dtype=int) #按书上代码出来是布尔值，要加上dtype=int才是0，1
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


### 2.2.3转换为张量格式

In [27]:
X=torch.tensor(inputs.to_numpy(dtype=float))
print(X)
y=torch.tensor(outputs.to_numpy(dtype=float))
print(y)

tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64)
tensor([127500., 106000., 178100., 140000.], dtype=torch.float64)


## 2.3 线性代数

### 2.3.1标量

In [28]:
#标量由只有一个元素的张量构成
import torch

x=torch.tensor(3.0)
y=torch.tensor(2.0)

x+y,x*y,x/y,x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

### 2.3.2 向量

In [29]:
x=torch.arange(0,4)
x

tensor([0, 1, 2, 3])

In [30]:
x[3]   #访问元素

tensor(3)

In [31]:
len(x)

4

In [32]:
x.shape

torch.Size([4])

### 2.3.3 矩阵

In [33]:
A=torch.arange(20).reshape(5,4)
A


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [34]:
A[2][3]

tensor(11)

In [35]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

In [36]:
#对称阵
B=torch.tensor([[1,2,3],[2,0,4],[3,4,5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [37]:
B==B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

### 2.3.4 张量

In [38]:
X=torch.arange(24).reshape(2,3,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

### 2.3.5 张量算法的基本性质

In [39]:
A=torch.arange(20,dtype=torch.float32).reshape(5,4)
B=A.clone()   #将A的一个副本分配给B,相当于copy？
A,A+B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [40]:
A*B   #Hadamard积，对应元素相乘

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [41]:
a=2
X=torch.arange(24).reshape(2,3,4)
a+X,(a*X).shape  

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

### 2.3.6 降维

In [42]:
x=torch.arange(4,dtype=torch.float32)
x,x.sum()


(tensor([0., 1., 2., 3.]), tensor(6.))

In [43]:
A.shape,A.sum()

(torch.Size([5, 4]), tensor(190.))

In [44]:
print(A)
A_sum_axis0=A.sum(axis=0)  #沿轴0求和,轴0在求和后要消失
A_sum_axis0,A_sum_axis0.shape

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])


(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [45]:

A_sum_axis1=A.sum(axis=1) 
A_sum_axis1,A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [46]:
A.sum(axis=[0,1])  #同时沿行列求和，和A.sum()相同

tensor(190.)

In [47]:
#求平均值
A.mean(),A.sum()/A.numel()

(tensor(9.5000), tensor(9.5000))

In [48]:
A.mean(axis=0),A.sum(axis=0)/A.shape[0]  #平均值也可以按轴来算

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

In [49]:
sum_A=A.sum(axis=1,keepdims=True)  #保持维度求和
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [50]:
A/sum_A  #sum_A保维度，故可以广播A除于sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [51]:
#如果我们想沿某个轴计算A元素的累积总和，比如axis=0(按行计算)，可以调用cumsum函数。此函数不会沿任何轴降低输入张量的维度。
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

### 2.3.7 点积

In [52]:
y=torch.ones(4,dtype=torch.float32)
x,y,torch.dot(x,y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [53]:
#也可以这样表述
torch.sum(x*y)

tensor(6.)

### 2.3.8 矩阵—向量积

In [54]:
#也就是一个矩阵和一个向量相乘
A,x,torch.mv(A,x)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([0., 1., 2., 3.]),
 tensor([ 14.,  38.,  62.,  86., 110.]))

### 2.3.9 矩阵乘法

In [55]:
B=torch.ones(4,3)
A,B,torch.mm(A,B)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.],
         [54., 54., 54.],
         [70., 70., 70.]]))

### 2.3.10 范数

In [56]:
#L2范数
u=torch.tensor([3.0,-4.0])
torch.norm(u)

tensor(5.)

In [57]:
#L1范数
torch.abs(u).sum()

tensor(7.)

In [58]:
#矩阵的Frobenius范数
torch.norm(torch.ones((4,9)))

tensor(6.)

## 2.4 微积分

### 2.4.1 导数和微分

In [59]:
def f(x):
    return 3*x**2-4*x
def numerical_lim(f,x,h):
    return(f(x+h)-f(x))/h

h=0.1
for i in range(5):
    print(f'h={h:.5f},numerical_limit={numerical_lim(f,1,h):.5f}')  #.5f 是格式化字符串中的一个格式说明符,五位浮点数
    h*=0.1

h=0.10000,numerical_limit=2.30000
h=0.01000,numerical_limit=2.03000
h=0.00100,numerical_limit=2.00300
h=0.00010,numerical_limit=2.00030
h=0.00001,numerical_limit=2.00003


## 2.5 自动微分

### 2.5.1 两个列子

In [60]:
x=torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [61]:
x.requires_grad_(True)   #等价于x=torch.arange(4.0,requires_grad=True),启用梯度跟踪
x.grad  #x.grad：存储计算出的梯度值

In [62]:
y=2*torch.dot(x,x)
y

tensor(28., grad_fn=<MulBackward0>)

In [63]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [64]:
x.grad==4*x

tensor([True, True, True, True])

In [65]:
x.grad.zero_()
y=x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

### 2.5.2 非标量变量的反向传播

In [66]:
x.grad.zero_()
y=x*x
y.sum().backward()   #必须要有sum(),y必须是一个标量
#等价于y.backward(torch.ones(len(x)))
x.grad

tensor([0., 2., 4., 6.])

### 2.5.3 分离计算

In [67]:
x.grad.zero_()
y=x*x
u=y.detach()  #将u作为y的一个常数替代，虽然是一个函数但求导时看成常数
z=u*x

z.sum().backward()
x.grad==u

tensor([True, True, True, True])

In [68]:
x.grad.zero_()
y.sum().backward()
x.grad==2*x        #对y没有影响

tensor([True, True, True, True])

### 2.5.4 Python控制流的梯度计算

In [69]:
#使用自动微分的一个好处是:即使构建函数的计算图需要通过Python控制流(例如，条件、循环或任意函数 调用)，我们仍然可以计算得到的变量的梯度。
def f(a):
    b=a*2
    while b.norm()<1000:
        b=b*2
    if b.sum()>0:
        c=b
    else:
        c=100*b
    return c

a=torch.randn(size=(),requires_grad=True)   #创建一个空的随机标量
d=f(a)
d.backward()
a.grad==d/a       #做的都是乘法运算，所以梯度就是系数

tensor(False)

## 2.6 概率

### 2.6.1 基本概率论

In [70]:
import matplotlib.pyplot as plt
import torch
from torch.distributions import multinomial

In [71]:
#看掷一次骰子的结果
fair_probs= torch.ones([6])/6
multinomial.Multinomial(1,fair_probs).sample()  #.sample()：立即执行一次采样，返回具体的采样结果

tensor([0., 0., 0., 0., 0., 1.])

In [72]:
multinomial.Multinomial(10,fair_probs).sample()

tensor([0., 3., 1., 3., 1., 2.])

In [73]:
counts=multinomial.Multinomial(1000,fair_probs).sample()
counts/1000

tensor([0.1700, 0.1560, 0.1730, 0.1820, 0.1550, 0.1640])

In [None]:
#不加这个会崩溃？？？？？？？？？？？？？？？？？
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(0.1,0.1))  
x=np.arange(10)
plt.plot(x,2*x+x**2)
plt.show

In [None]:
counts=multinomial.Multinomial(10,fair_probs).sample((100,))
cum_counts=counts.cumsum(dim=0)
estimates=cum_counts/cum_counts.sum(dim=1,keepdim=True)

plt.figure(figsize=(8,6)) 
for i in range(6):
    plt.plot(estimates[:, i].numpy(),
            label=("P(die="+str(i+1)+")"))
plt.axhline(y=0.167,color='black',linestyle='dashed')
plt.xlabel('Groups of experiments')
plt.ylabel('Estimated probability')
plt.legend();
