## 4. 数据操作

In [1]:
import numpy as np
import torch

### 4.1 numpy和torch构建特殊向量是一样的

In [53]:
(np.arange(3), torch.arange(3))

(array([0, 1, 2]), tensor([0, 1, 2]))

### 4.2 torch和numpy对一维向量的reshape操作也是一样

In [54]:
(np.arange(6).reshape(2,3), torch.arange(6).reshape(2,3))

(array([[0, 1, 2],
        [3, 4, 5]]),
 tensor([[0, 1, 2],
         [3, 4, 5]]))

### 4.3 torch和numpy构建特殊矩阵也是一样的

In [57]:
(np.ones((2,3)), torch.zeros((2,3)))

(array([[1., 1., 1.],
        [1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.]]))

### 4.4 torch和numpy向量的长度属性和方法不一致

In [59]:
(np.arange(3).shape, torch.arange(3).shape,
np.arange(3).size, torch.arange(3).numel())

((3,), torch.Size([3]), 3, 3)

### 4.5 torch和numpy的数据类型转换不一样

In [61]:
(np.arange(3).astype(np.int16),
torch.arange(3).to(torch.float64))

(array([0, 1, 2], dtype=int16), tensor([0., 1., 2.], dtype=torch.float64))

### 4.6 torch和numpy 指数操作

In [66]:
(np.exp(np.arange(6, dtype=np.float32).reshape(2,-1)),
 torch.exp(torch.arange(6, dtype=torch.float32).reshape(3,-1)))

(array([[  1.       ,   2.718282 ,   7.3890557],
        [ 20.085537 ,  54.59815  , 148.41316  ]], dtype=float32),
 tensor([[  1.0000,   2.7183],
         [  7.3891,  20.0855],
         [ 54.5981, 148.4132]]))

In [48]:
torch.exp(y.reshape(-1,).to(torch.int16))

tensor([  2.7183,   7.3891,  20.0855,  20.0855,  54.5981, 148.4132])

### 4.7 torch和numpy在向量，矩阵的合并操作上不一样

##### 1. torch.cat函数有dim参数，代表连接方向
##### 2. torch.cat函数接收list or tuple
##### 3. numpy.c_[]和numpy.r_[]函数 接收 分开传入的向量

In [73]:
np.c_[np.ones(3).reshape(-1,1), np.zeros(3).reshape(-1,1)], \
np.r_[np.ones(3), np.zeros(3)], \
torch.cat([torch.ones(3).reshape(-1,1), torch.zeros(3).reshape(-1,1)], dim=1), \
torch.cat((torch.ones(3), torch.zeros(3)), dim=0)

(array([[1., 0.],
        [1., 0.],
        [1., 0.]]),
 array([1., 1., 1., 0., 0., 0.]),
 tensor([[1., 0.],
         [1., 0.],
         [1., 0.]]),
 tensor([1., 1., 1., 0., 0., 0.]))

### 4.8 tensor的matrix如果是单索引，则选择行。多索引 -> 用:表示选择这一维度的所有

In [77]:
x = np.arange(4).reshape(2,-1)
y = torch.arange(4).reshape(2,-1)
x[0], y[0], x[1,:], y[1,:]

(array([0, 1]), tensor([0, 1]), array([2, 3]), tensor([2, 3]))

### 4.9 python中的原位操作

In [87]:
x = np.arange(6).reshape(2,-1)
first_id = id(x)
x[:] = 2
second_id = id(x)
x += 3
third_id = id(x)
x = 2
fourth_id = id(x)
first_id, second_id, third_id, fourth_id

(3078336861488, 3078336861488, 3078336861488, 140710099149640)

#### 4.10 numpy和torch之间的转换

In [94]:
torch.tensor(np.arange(3)), torch.ones(2).tolist()

(tensor([0, 1, 2], dtype=torch.int32), [1.0, 1.0])

#### 4.11 如何利用with，file.write，一行一行的写入数据

In [107]:
import os
f_path = './test.csv'
with open(f_path, 'w') as f:
    f.write('con,enz,res\n')
    f.write('1,p,23\n')
    f.write('2,a,NA\n')
    f.write('3,NA,NA\n')

#### 4.12 利用pandas读取文件

In [129]:
import pandas as pd
df = pd.read_csv('./test.csv')
df

Unnamed: 0,con,enz,res
0,1,p,23.0
1,2,a,
2,3,,


#### 4.13 在pandas中，利用iloc，提取predictors和outcome

In [112]:
predictor, outcome = df.iloc[:, :-1], df.iloc[:, -1]
predictor, outcome

(   con  enz
 0    1    p
 1    2    a
 2    3  NaN,
 0    23.0
 1     NaN
 2     NaN
 Name: res, dtype: float64)

#### 4.14 在pandas中，对整个df的所有numeric列填充NA

In [119]:
df.select_dtypes('number').fillna(df.select_dtypes('number').mean())

Unnamed: 0,con,res
0,1,23.0
1,2,23.0
2,3,23.0


#### 4.15 在pandas中，对qualitative列做dummy操作，并且忽视numeric列

In [121]:
pd.get_dummies(df, dummy_na=True)

Unnamed: 0,con,res,enz_a,enz_p,enz_nan
0,1,23.0,0,1,0
1,2,,1,0,0
2,3,,0,0,1


#### 4.16 在pandas对数据做完预处理后，用torch.tensor()将DataFrame转变成tensor

In [130]:
df = pd.get_dummies(df, dummy_na=True)
df_number = df.select_dtypes(include=np.number)
df_object = df.select_dtypes(include=np.object_)
df_number = df_number.fillna(df_number.mean())
df = pd.concat([df_number, df_object], axis=1)
df

Unnamed: 0,con,res,enz_a,enz_p,enz_nan
0,1,23.0,0,1,0
1,2,23.0,1,0,0
2,3,23.0,0,0,1


In [146]:
torch.tensor(df.loc[:, ['con', 'enz_a', 'enz_p', 'enz_nan']].to_numpy()), \
torch.tensor(df.loc[:, 'res'])

(tensor([[1, 0, 1, 0],
         [2, 1, 0, 0],
         [3, 0, 0, 1]]),
 tensor([23., 23., 23.], dtype=torch.float64))

### 6. 矩阵计算

#### 6.1 特殊标量倒数

![image.png](attachment:a00d28da-6ab2-441a-8e70-246d3d44d38a.png)

![image.png](attachment:88112873-cd3e-4fc3-872f-8040a9633ea6.png)

### 6.2 向量矩阵求导后的形状

![image.png](attachment:df4792fe-b9f2-438f-9085-e9b0ff80102e.png)

#### 6.2 y是标量，x是列向量。y对x求导，得到行向量

可以理解为y = x1^2 + x2^2。则y是等高线，在二维平面上，每一个等高线就是一个圆

倒数就是切线的方向的垂直方向，因为等高线某一点的切线方向的垂直方向，一定是y变化最大的方向

![image.png](attachment:99a398e4-7761-4a66-936c-5a0f45b4f79a.png)

#### 6.3 x和y都是列向量

![image.png](attachment:d4ec71fa-4225-4b1e-acc3-ad4e0284a708.png)

![image.png](attachment:72b190da-16ed-4183-b926-c4a0d3934e8e.png)

### 7. 自动求导

#### 7.1 自动求导是指：求得某个点上的倒数，使用的是计算图概念（将求导操作用计算图表示，每个操作是一个操作子）

不同于符号求导（即：求出导函数，再带入值）。

也不同于数值求导（利用倒数定义：用很小的值的y的变换 除以 x的变化，得到导数）

#### 7.2 求导的方式可以有正向累计和反向传递

正向累计需要计算n次，计算复杂度高，但是不用每次记住中间结果，所以内存复杂度为1

反向传递只需要计算一次，计算复杂度是1。但是需要存储所有的中间变量，所以内存复杂度高

#### 7.3 自动求导具体步骤

1. 先构建x的tensor
2. 并要求tensor存储梯度
3. 通过x构建y
4. 通过反向传递，求导
5. 查看梯度
6. 梯度清零（可选）

![image.png](attachment:07793343-d497-49c2-94c3-9c60649458d0.png)

In [50]:
x = torch.arange(3.0, requires_grad=True)
# x = torch.arange(3.0)
# x.requires_grad_(True)
y = 2 * torch.dot(x, x)
y

tensor(10., grad_fn=<MulBackward0>)

In [27]:
y.backward()

In [28]:
x.grad

tensor([0., 4., 8.])

In [29]:
x.grad.zero_()
y = sum(x)
y.backward()
x.grad

tensor([1., 1., 1.])

In [32]:
x.grad.zero_()
y = x * x
y

tensor([0., 1., 4.], grad_fn=<MulBackward0>)

In [33]:
y.sum().backward()
x.grad

tensor([0., 2., 4.])

y必须是标量

In [34]:
x.grad.zero_()
y.backward()

RuntimeError: grad can be implicitly created only for scalar outputs

In [56]:
# y是向量
y = x * x
# detach()后，则u不像y是x的函数，u只是个常数 == x*x
u = y.detach()
z = u * x
# 则z对x的倒数，就是u

z = u * x
z.sum().backward()
x.grad

tensor([0., 1., 4.])