# 1 引言
## 1.1 数据

每个数据集由一个样本组成（example，sample）组成，大多数时候遵循独立同分布（independently and identically distributed，i.i.d）。样本有时也称为数据点（data point）或数据实例（data instance），通常由一组称为特征（features）或协变量（covariates）的属性组成。机器学习就是根据这些属性进行预测，监督学习中预测的是一个特殊的属性称为标签（label）或目标（target）。

当每个样本的特征类别数量都相同时，其特征 向量是固定长度的，这个长度称为维度（dimensionality）。

## 1.2、模型

深度学习关注于功能强大的模型，这些模型由神经网络错综复杂的交织在一起，包含层层数据转换，因此称为深度学习（deep learning）。

## 1.3 目标函数

机器学习中，需要定义模型的优劣程度的度量，这个度量大多数时候是“可优化”的。称之为目标函数（objective function）。因为希望优化到最低点，所以也称为损失函数（loss function）。任务在预测数值时，常见的损失函数是平方误差（squared error）。在解决分类问题时，常见的目标函数时最小化错误率，但由于不可微性或复杂性难以直接优化。用以训练的数据称为训练数据集（train dataset）或训练集（train set），用以拟合模型参数。用以测试模型最终性能的数据集称为测试数据集（test dataset）或测试集（test set）。

## 1.4 优化算法

能够搜索出最佳参数最小化损失函数的算法，称为优化算法。深度学习中大多数的算法都是基于一种基本方法——梯度下降（gradient decent）。在每个步骤中会检查每个参数，对该参数进行少量变动损失会朝向何处移动。然后往减少损失的方向上优化参数。

## 1.5 监督学习

### 1.5.1 回归

### 1.5.2 分类

### 1.5.3 标记问题

### 1.5.4 搜索

### 1.5.5 推荐系统

### 1.5.6 序列学习

## 1.6 无监督学习

# 2 数据操作

## 2.1 入门

张量表示一个由数值组成的数组，数组可能有多个维度。一个轴的张量对应向量（vector）；两个轴的对应于数学上的矩阵（matrix）；两个以上的轴没有特殊数学名称。

张量中的每个值称为张量的元素（element）。除非额外指定，张量存储在内存中，基于CPU计算。

In [5]:
import torch

# arange创建一个行向量x，包含0开始的前12个整数，默认为整型。
x = torch.arange(12)
print(x)

# 通过访问张量的shape属性得到张量的形状
print(x.shape) 

# 通过访问numel属性得到张量中元素的总数
print(x.numel())

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
torch.Size([12])
12


想改变一个张量的形状而不改变数量和元素值，可以调用reshape函数。

In [10]:
# x不会改变形状
X = x.reshape(3,4)
print(X)

# 可以通过设置-1调用自动计算维度改变形状
X_ = x.reshape(3,-1)
print(X_)


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


使用全0、全1、其他常量或特定分布中随机采样的数字来初始化矩阵。

In [14]:
# 全0矩阵
print(torch.zeros((2,3,4)))

# 全1矩阵
print(torch.ones((2,3,4)))

# 标准高斯分布采样
print(torch.randn(3,4))

# 包含数值的python列表（或嵌套列表）赋确定值。最外层的列表对应于轴0，内层的列表对应于轴1

print(torch.tensor([[1,2,3],[4,5,6],[7,8,9]]))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[ 1.5484, -1.1896, -0.8362,  0.1259],
        [ 0.0781, -0.4032, -1.1912,  0.3621],
        [-1.0024,  1.4979,  1.1101,  0.8369]])
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])


## 2.2 运算符

按元素运算，将二元运算符（$F:\mathbb R^d,\mathbb R^d\to\mathbb R^d$）应用于数组中每对位置对应的元素

In [18]:
x = torch.arange(4)
y = torch.tensor([2,2,2,2])
print(f'求和：{x+y}') 
print(f'求差：{x-y}') 
print(f'求积：{x*y}') 
print(f'求商：{x/y}') 
print(f'求幂：{x**y}')
print(f'exp：{torch.exp(x)}')  

求和：tensor([2, 3, 4, 5])
求差：tensor([-2, -1,  0,  1])
求积：tensor([0, 2, 4, 6])
求商：tensor([0.0000, 0.5000, 1.0000, 1.5000])
求幂：tensor([0, 1, 4, 9])
exp：tensor([ 1.0000,  2.7183,  7.3891, 20.0855])


线性代数运算，包括向量点积和矩阵乘法。

可以把多个张量连结（cancatenate）叠起来形成一个更大的张量

In [25]:
X = torch.arange(12, dtype=torch.float32).reshape(3,4)
Y = torch.tensor([[0,1,2,3],[2,3,4,5],[6,7,8,9]])

torch.cat((x,y), dim=0),torch.cat((x,y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 1.,  2.,  3.,  4.],
         [ 2.,  3.,  4.,  5.],
         [ 5.,  6.,  7.,  8.]]),
 tensor([[ 0.,  1.,  2.,  3.,  1.,  2.,  3.,  4.],
         [ 4.,  5.,  6.,  7.,  2.,  3.,  4.,  5.],
         [ 8.,  9., 10., 11.,  5.,  6.,  7.,  8.]]))

In [26]:
# 逻辑运算符
X == Y

tensor([[ True,  True,  True,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [27]:
# 对张量的所有元素求和
X.sum()

tensor(66.)

## 2.3 广播
某些情况下，即使形状不同，仍可通过调用广播机制（broadcasting mechanism）来执行按元素操作。工作方式如下：
1. 复制元素来扩展一到两个数组，使得两个张量具有相同的形状
2. 对生成的数组执行按元素操作
大多数情况下验证数组中长度为1的轴进行广播

In [29]:
a = torch.arange(3).reshape((3,1))
b = torch.arange(2).reshape((1,2))
a,b,a+b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]),
 tensor([[0, 1],
         [1, 2],
         [2, 3]]))

 ## 2.4 索引和切片

第一个元素的索引是0，最后一个元素缩影是-1；可以指定范围以包含第一个元素和最后一个元素的元素：


In [30]:
X[-1],X[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [31]:
# 将指定索引来将元素写入矩阵
X[1,2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [32]:
# ：代表沿着某个轴的所有元素
X[0:2,:] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

## 2.5 节省内存

运行一些操作可能导致为新结果分配内存。id()函数提供了内存中引用对象的确切地址。

In [35]:
before = id(Y)

Y = X + Y

print(f"Y before memory location:{before}\nY after memory  location:{id(Y)}")

Y before memory location:131888632813024
Y after memory  location:131888642721344


通常这是不可取的，原因是：
- 不想不必要地分配内存。通常情况下希望原地执行这些更新
- 如果不原地更新，其他引用可能会指向旧的内存位置。
使用Y[:]将操作的结果分配给先前分配的数组。

In [37]:
Z = torch.zeros_like(Y)
print(f"id(Z):{id(Z)}")
Z[:] = X + Y
print(f"id(Z):{id(Z)}")

# 后续使用中没有重复用到X，可以使用X[:] = X + Y 或X += Y减少内存开销
before = id(X)
X += Y
id(X) == before


id(Z):131888614863280
id(Z):131888614863280


True

## 2.6 转换为其他python对象

易于将torch定义的张量和numpy张量相互转换。两个数组共享底层内存，就地更改一个张量也会同时更改另一个张量


In [38]:
A = X.numpy()
B = torch.tensor(A)
type(A),type(B)

(numpy.ndarray, torch.Tensor)

In [39]:
a = torch.tensor([3.5])
a,a.item(),float(a),int(a)

(tensor([3.5000]), 3.5, 3.5, 3)