# 数据操作基础


在深度学习里面有大量的数组 ndarray 这是numpy里的内容

In [6]:
# 首先导入包
import torch

### torch 是tensor 而 numpy是ndarray
这两个在本质上实际上很相似 只是在用途不大相同 都是表示一些数据 

In [9]:
# 这是一个向量
x = torch.arange(12)
x 

# numpy中也有这种方法 我感觉torch和numpy很相似 但是用途不同 
import numpy as np
y = np.arange(12)
y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [11]:
# 获取向量的维度和形状
x.shape,y.shape

(torch.Size([12]), (12,))

In [16]:
# 当然可以 reshape
x =  x.reshape(3, 4)
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [18]:
# 如果想要一些特定的值 或者在创建时指定形状
x = torch.zeros((2,3,4))
x

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [19]:
x = torch.ones((2, 3, 4))
x

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [21]:
# 你当然可以创建自己想要的数组
x = torch.tensor([[2, 3, 4], [4, 3, 1], [3, 1, 3]])
x

tensor([[2, 3, 4],
        [4, 3, 1],
        [3, 1, 3]])

In [24]:
x.shape

torch.Size([3, 3])

In [25]:
# 创建了数组之后，可以在数组之间进行一些运算
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 3, 4])

# 这些运算都可以直接进行 按照元素进行加减 这应该是重载了一些运算符 
x + y

tensor([ 3.,  4.,  7., 12.])

### Tensor 和 ndarray 相似 都会把运算给扩散到整个序列

In [12]:
x - y

tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [13]:
x * y

tensor([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [14]:
x ** y 

tensor([           1,            1,            4,           27,          256,
                3125,        46656,       823543,     16777216,    387420489,
         10000000000, 285311670611])

In [15]:
# 你还可以指定创建数组的数据类型
x = torch.arange(12, dtype=torch.float32).reshape((3, 4))
y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])


In [16]:
y.shape

torch.Size([3, 4])

In [17]:
x.shape

torch.Size([3, 4])

In [19]:
# 同样都是二维的 torch.arange是以特殊的方式生成tensor 而 直接用ternsor则是指定一个数据让其生成
# 0 维代表的是行的拼接 1代表的是列的拼接 cat必须保证两者的维度相同
torch.cat((x, y), dim=0), torch.cat((x, y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [22]:
#  还可以构建判断矩阵 用来构建张量 bool矩阵
x == y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [23]:
# 求和之后得到一个元素的tensor 标量
x.sum() 

tensor(66.)

In [63]:
# ！！！！！ 从numpy 传过来的广播机制
# numpy 中的广播机制就是 尽管你的维度不同 但是还是可以进行相应的操作
# 这里最容易出错 尽管代码都在运行 但是可能不是按照你想象的方式进行

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
# 维度不同 但是(3, 1) 可以根据(1,2) 复制一个维度 （3，2） 同理 (1, 2) -> (3, 2)
# 这是完全可行的 但是要保证是同一维度 如果是3维和2维 则无法扩张
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [64]:
a + b # 这个广播机制会导致许多问题的发生 所以要慎用 在进行计算之前 先判断两者的维度

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [66]:
x, x[-1], x[1:3]

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [67]:
x[1, 2] = 9
x


tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [74]:
x[1] = torch.arange(9, 13)

In [75]:
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 9., 10., 11., 12.],
        [ 8.,  9., 10., 11.]])

In [81]:
# 不要频繁复制矩阵，尽管python不会做这件事，但是最好不要频繁复制
# id 用来在python中获得该内容的地址 像c中的指针

before = id(y)
y = y + x
id(y) == before

False

In [86]:
# like 用来指定创建的形状
z = torch.zeros_like(y) 
print('id(z):', id(z))
z[:] =  x + y
print('id(z):', id(z))

# 尽管z的值变了 但是其内存地址实际上不会改变 只是切片变化了而已
# 切片可以减少内存的开辟 节约空间

id(z): 2164555140768
id(z): 2164555140768


In [88]:
before = id(y)
x += y
id(y) == before

True

In [90]:
# torch 中的tensor尽管也是数组 但是和numpy还是不同 所执行的一些操作不同 
# numpy是入门python进行数据分析所必须的一个库
A = x.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

In [91]:
# 如果仅仅是一个标量 那么可以转变为python中的标量
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)



# 数据操作实践
利用人工生成的数据进行数据操作实操


In [28]:
import os 

# 创建了一个文件夹 
os.makedirs(os.path.join('..', 'data'), exist_ok=True)

# 创建了一个hose_tiny.csv 文件数据 之后用代码来随机生成
data_file = os.path.join('..', 'data', 'hose_tiny.csv')

data_file


'..\\data\\hose_tiny.csv'

In [29]:
with open(data_file, 'w') as f:
    f.write("NumRooms, Alley, Price\n") # 列名
    f.write("NA, Pave, 127500\n")
    f.write("2, NA, 106000\n")
    f.write("4, NA, 178100\n")
    f.write("NA, NA, 140000\n")


In [30]:
import pandas as pd
data = pd.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [32]:
# 有些数据是缺失的 需要进行补充 
# 如果数据缺失 则丢掉
# 插值方法（不丢掉）
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # 用来定位行和列 inputs 是第0 1 列 而outputs则是第2列开始

inputs

Unnamed: 0,NumRooms,Alley
0,,Pave
1,2.0,
2,4.0,
3,,


In [33]:
outputs

0    127500
1    106000
2    178100
3    140000
Name:  Price, dtype: int64

In [34]:
inputs = inputs.fillna(inputs.mean())  # 用该部分非缺失值的均值来处理（数值）  string是没有均值的
print(inputs)

   NumRooms  Alley
0       3.0   Pave
1       2.0     NA
2       4.0     NA
3       3.0     NA


  inputs = inputs.fillna(inputs.mean())  # 用该部分非缺失值的均值来处理（数值）  string是没有均值的


In [35]:
# 对于那些非数值 不可以插值 则应该将其转换为数值之后再进行插值
inputs = pd.get_dummies(inputs, dummy_na = True)
print(inputs)

   NumRooms   Alley_ NA   Alley_ Pave   Alley_nan
0       3.0           0             1           0
1       2.0           1             0           0
2       4.0           1             0           0
3       3.0           1             0           0


In [36]:
import torch

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

# 这样，我们就将对应的csv文件转换成了tensor
# 预处理方法还有许多 插值方法也有许多

(tensor([[3., 0., 1., 0.],
         [2., 1., 0., 0.],
         [4., 1., 0., 0.],
         [3., 1., 0., 0.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

# view 和 reshape 的区别

# b 和 a 是地址上的引用关系 所以有时候需要copy 深拷贝
tensor 中的copy不是简单的copy 牵扯到梯度的计算 所以存在两种copy方式

clone
clone()函数可以返回一个完全相同的tensor,新的tensor开辟新的内存，但是仍然留在计算图中。

detach
detach()函数可以返回一个完全相同的tensor,新的tensor开辟与旧的tensor共享内存，新的tensor会脱离计算图，不会牵扯梯度计算。此外，一些原地操作(in-place, such as resize_ / resize_as_ / set_ / transpose_) 在两者任意一个执行都会引发错误。

所以尽量选择clone 来复制吧


In [56]:
a = torch.arange(12).reshape((3, 4)); a

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [57]:
b = a[:]

In [58]:
b

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [59]:
id(b)

1843902277072

In [60]:
id(a)

1843902272992

In [61]:
b[1:] = 10

In [62]:
b

tensor([[ 0,  1,  2,  3],
        [10, 10, 10, 10],
        [10, 10, 10, 10]])

In [63]:
a

tensor([[ 0,  1,  2,  3],
        [10, 10, 10, 10],
        [10, 10, 10, 10]])

In [64]:
b = a[:].clone()

In [65]:
b[:1] = 20

In [66]:
b

tensor([[20, 20, 20, 20],
        [10, 10, 10, 10],
        [10, 10, 10, 10]])

In [67]:
a

tensor([[ 0,  1,  2,  3],
        [10, 10, 10, 10],
        [10, 10, 10, 10]])