# Task2 预备知识

# 数据操作

In [1]:
import torch

## 创建张量

In [4]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 查看张量形状

In [10]:
x.shape,x.size()

(torch.Size([12]), torch.Size([12]))

## 查看张量中的元素数量

In [12]:
x.numel()

12

## 改变张量的形状

In [13]:
x.reshape(2,6)

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])

## 全0/1张量

In [14]:
torch.zeros(2,3,4),torch.ones(2,3,4)

(tensor([[[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]],
 
         [[0., 0., 0., 0.],
          [0., 0., 0., 0.],
          [0., 0., 0., 0.]]]),
 tensor([[[1., 1., 1., 1.],
          [1., 1., 1., 1.],
          [1., 1., 1., 1.]],
 
         [[1., 1., 1., 1.],
          [1., 1., 1., 1.],
          [1., 1., 1., 1.]]]))

## 随机张量

In [15]:
torch.randn(2,3,4)

tensor([[[-0.7658, -0.0996, -1.1484, -0.2082],
         [-0.7818, -2.3094, -0.9021,  1.6996],
         [ 0.0355,  0.4826, -0.3764, -1.4058]],

        [[ 0.3212, -1.7898,  0.7723, -0.2048],
         [ 0.4453,  1.0564,  0.5306, -0.1042],
         [ 0.1134,  0.0665,  1.5182,  0.2651]]])

## 运算符

## 标准算术运算符

In [16]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

## 求幂

In [19]:
x,torch.exp(x)

(tensor([1., 2., 4., 8.]),
 tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03]))

## 张量连接

In [21]:
X = torch.arange(12,dtype = torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X,Y,torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

## 逻辑运算符

In [22]:
X==Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

## 张量中所有的元素求和

In [24]:
X.sum(),Y.sum()

(tensor(66.), tensor(30.))

## 广播

In [25]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [28]:
a+b #沿着数组中长度为1的轴进行广播

tensor([[0, 1],
        [1, 2],
        [2, 3]])

## 索引和切片

In [31]:
X,X[-1],X[1,3],X[1,2],X[0:2,:]

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 8.,  9., 10., 11.]),
 tensor(7.),
 tensor(6.),
 tensor([[0., 1., 2., 3.],
         [4., 5., 6., 7.]]))

## 节省内存

In [33]:
# 运行Y = Y + X后，我们会发现id(Y)指向另一个位置
before = id(Y)
Y = Y + X
id(Y) == before

False

In [34]:
# 执行原地操作非常简单。 我们可以使用切片表示法将操作的结果分配给先前分配的数组
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 140430286253488
id(Z): 140430286253488


In [35]:
# 如果在后续计算中没有重复使用X， 我们也可以使用X[:] = X + Y或X += Y来减少操作的内存开销。
before = id(X)
X += Y
id(X) == before

True

## 转换为其他Python对象

In [39]:
import numpy as np

In [40]:
A = X.numpy()
B = np.array(A)
type(A), type(B)

(numpy.ndarray, numpy.ndarray)

In [41]:
B = torch.from_numpy(A) #将numpy 转换化为 tensor
print(B)

tensor([[ 2.,  4., 10., 12.],
        [13., 17., 21., 25.],
        [28., 30., 32., 34.]])


In [42]:
print(A, '\n')
B = torch.from_numpy(A) #将numpy 转换化为 tensor
print(B)
C = B.numpy()#tensor 转换化为 numpy 但是对该numpy进行修改会改变其他的的值
# 对C该表 A,B 都会相应的改变

[[ 2.  4. 10. 12.]
 [13. 17. 21. 25.]
 [28. 30. 32. 34.]] 

tensor([[ 2.,  4., 10., 12.],
        [13., 17., 21., 25.],
        [28., 30., 32., 34.]])


## 将大小为1的张量转换为Python标量

In [43]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 练习


1. 运行本节中的代码。将本节中的条件语句X == Y更改为X < Y或X > Y，然后看看你可以得到什么样的张量。

2. 用其他形状（例如三维张量）替换广播机制中按元素操作的两个张量。结果是否与预期相同？

In [45]:
x = torch.ones(12)
y = x.reshape(3, 4)

## 问题

In [None]:
1. 什么时候用reshape()，什么时候用reshape(())？
2. X.asnumpy()失败？

# 数据预处理

## 读取数据集

In [53]:
import os
import pandas as pd
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [54]:
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 处理缺失值

In [57]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs,outputs)

   NumRooms Alley
0       NaN  Pave
1       2.0   NaN
2       4.0   NaN
3       NaN   NaN 0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64


In [58]:
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


  inputs = inputs.fillna(inputs.mean())


## onehot

In [59]:
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [60]:
## 转换为张量格式

In [61]:
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 练习 

1. 创建包含更多行和列的原始数据集。
2. 删除缺失值最多的列。
3. 将预处理后的数据集转换为张量格式。

In [64]:
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [65]:
data.isnull().sum()

NumRooms    2
Alley       3
Price       0
dtype: int64

In [66]:
def drop_col():
    n = len(data)
    i = 0
    for col_name in('NumRooms','Alley','Price'):
        cnt = data[col_name].count()
        if (n-cnt) > i :
            i = (n-cnt)
            j = col_name
    data.drop(j,axis=1,inplace=True)

drop_col()
data

Unnamed: 0,NumRooms,Price
0,,127500
1,2.0,106000
2,4.0,178100
3,,140000


## 线性代数

## 标量

In [67]:
import torch
# 标量由只有一个元素的张量表示
x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 向量

In [69]:
# 向量可以被视为标量值组成的列表。 这些标量值被称为向量的元素（element）或分量（component）
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

## 长度、维度和形状

In [71]:
x.shape

torch.Size([4])

## 矩阵

In [72]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [74]:
A.reshape(2,10),A.reshape(4,5)

(tensor([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]]),
 tensor([[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]))

In [75]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

In [76]:
## 作为方阵的一种特殊类型，对称矩阵（symmetric matrix）
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

## 张量

In [78]:
## 就像向量是标量的推广，矩阵是向量的推广一样,向量是一阶张量，矩阵是二阶张量。 张量用特殊字体的大写字母表示
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 张量算法的基本性质

In [79]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))