# 数据操作

首先，我们导入torch。请注意，虽然它被称为PyTorch，但是代码中使用torch而不是pytorch。

In [41]:
import torch

首先，我们可以使用 arange 创建一个行向量 x。这个行向量包含以0开始的前12个整数，它们默认创建为整数。也可指定创建类型为浮点数。张量中的每个值都称为张量的 元素（element）。例如，张量 x 中有 12 个元素。除非额外指定，新的张量将存储在内存中，并采用基于CPU的计算。

In [2]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

可以通过张量的shape属性来访问张量（沿每个轴的长度）的形状 。

In [3]:
x.shape

torch.Size([12])

In [4]:
x.numel()

12

要想改变一个张量的形状而不改变元素数量和元素值，可以调用reshape函数。 例如，可以把张量x从形状为（12,）的行向量转换为形状为（3,4）的矩阵。 这个新的张量包含与转换前相同的值，但是它被看成一个3行4列的矩阵。 要重点说明一下，虽然张量的形状发生了改变，但其元素值并没有变。 注意，通过改变张量的形状，张量的大小不会改变。

In [5]:
x = x.reshape(3, 4)
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [6]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [7]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [8]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

In [9]:
torch.tensor([[[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]])

tensor([[[2, 1, 4, 3],
         [1, 2, 3, 4],
         [4, 3, 2, 1]]])

In [10]:
torch.tensor([[[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]]).shape

torch.Size([1, 3, 4])

In [11]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [12]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [13]:
x = torch.arange(12, dtype = torch.float32).reshape((3, 4))
y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((x, y), dim = 0), torch.cat((x, y), dim = 1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [14]:
x == y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [15]:
x.sum()

tensor(66.)

小心广播机制

In [16]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [17]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

In [18]:
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

在 Python 和 PyTorch 中，切片操作 x[1:3] 并不是访问第二行到第四行的全部元素，而是访问 从索引 1 到索引 2 的行（包括索引 1 但不包括索引 3）。这是因为 Python 的切片规则是 左闭右开区间。

In [19]:
x[-1], x[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [20]:
x[1, 2]
x

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [21]:
x[0: 2, : ] = 12
x

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

运行一些操作可能会导致为新结果分配内存
id()类似于C++中的指针

In [22]:
before = id(y)
y = y + x
id(y) == before

False

执行原地操作
+= 是一种 就地（in-place）操作。它会修改 x 本身，而不是创建一个新的对象。
具体来说，x += y 会对 x 的元素进行原地更新，即将 x 的值与 y 的值相加，并将结果存回 x 中。

In [23]:
z = torch.zeros_like(y)
print('id(z):', id(z))
z[:] = x + y
print('id(z):', id(z))

id(z): 133588422277504
id(z): 133588422277504


解释：
z[:] = x + y：这是通过 切片赋值 的方式修改 z。z[:] 表示选取 z 的所有元素，并将它们设置为 x + y 的结果。

关键点：在这里，z 依然是原来创建的张量，只有它的值被更新了。由于我们修改的是 z 的元素，z 的内存地址（id(z)）没有发生变化，因此两次打印的 id(z) 是相同的。

In [24]:
z = torch.zeros_like(y)
print('id(z):', id(z))
z = x + y
print('id(z):', id(z))

id(z): 133588422274784
id(z): 133588422270544


解释：
z = x + y：在这种情况下，z 被 重新赋值 为 x + y 的结果。这里，x + y 会创建一个新的张量，并将其赋值给 z。这意味着 z 的原有值会被完全替换，并且会指向一个新的张量。

关键点：由于这是一个新的赋值操作，z 会指向一个新创建的张量，因此 id(z) 会发生变化，打印出的 id(z) 会不同。

In [32]:
before = id(x)
x += y
id(x) == before

True

In [33]:
a = x.numpy()
b = torch.tensor(a)
type(a), type(b)


(numpy.ndarray, torch.Tensor)

将大小为1的张量转换为Python标量

In [35]:
a = torch.tensor(3.5)
a, a.item(), float(a), int(a)

(tensor(3.5000), 3.5, 3.5, 3)

# 数据预处理

创建一个人工数据集，并存储在csv文件

In [36]:
import os 

os.makedirs(os.path.join('..','data'), exist_ok = True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')

with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price \n')
    f.write('NA, Pave, 127500 \n')
    f.write('2, NA, 106000 \n')
    f.write('4, NA, 180100 \n')
    f.write('NA, NA, 140000 \n')



我们来逐行分析这段代码：

### 1. **导入 `os` 模块**

```python
import os
```
- `os` 模块提供了与操作系统进行交互的功能，尤其是文件和目录管理相关的功能。这里我们将使用 `os` 模块中的 `makedirs` 和 `path.join` 函数来创建目录和构建文件路径。

### 2. **创建目录**

```python
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
```
- **`os.path.join('..', 'data')`**：
  - `os.path.join()` 用于连接文件路径。在这里，`'..'` 表示当前目录的父级目录，`'data'` 是我们想要创建的目录名。因此，`os.path.join('..', 'data')` 会返回一个表示上级目录下 `data` 文件夹的路径（例如，如果当前目录是 `/home/user/project`，结果路径将是 `/home/user/data`）。
  
- **`os.makedirs()`**：
  - `os.makedirs()` 用于递归地创建目录。如果目录已经存在且 `exist_ok=True`，那么不会引发错误。如果目录不存在，`makedirs()` 会创建目录。
  - 这里 `exist_ok=True` 表示如果 `data` 文件夹已经存在，则不会抛出错误，确保在创建时不会干扰已有目录。

### 3. **构建文件路径**

```python
data_file = os.path.join('..', 'data', 'house_tiny.csv')
```
- 使用 `os.path.join()` 组合目录和文件名。`'..'` 表示父级目录，`'data'` 是我们刚刚创建的文件夹，`'house_tiny.csv'` 是我们要创建的文件名。因此，`data_file` 存储的是 `house_tiny.csv` 的完整路径（例如 `/home/user/data/house_tiny.csv`）。

### 4. **创建并写入文件**

```python
with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price \n')
    f.write('NA, Pave, 127500\n')
    f.write('2, NA, 106000\n')
    f.write('4, NA, 180100\n')
    f.write('NA, NA, 140000\n')
```
- **`open(data_file, 'w')`**：
  - `open()` 函数用于打开文件，第一个参数是文件路径，第二个参数 `'w'` 表示以写模式打开文件。如果文件不存在，Python 会自动创建它；如果文件已经存在，`'w'` 模式会清空文件中的内容并重新写入。
  
- **`with` 语句**：
  - 使用 `with` 语句打开文件时，Python 会自动管理文件的打开和关闭。当 `with` 块中的代码执行完成后，文件会自动关闭。这是一种处理文件的推荐方式，可以避免忘记关闭文件的错误。

- **写入内容**：
  - `f.write('NumRooms, Alley, Price \n')`：这行代码将字符串 `'NumRooms, Alley, Price \n'` 写入文件。这是 CSV 文件的标题行，列出数据的名称：房间数（NumRooms）、小巷（Alley）和价格（Price）。
  - 接下来的几行 `f.write()` 将数据写入文件：
    - `f.write('NA, Pave, 127500\n')`：表示一条数据记录，其中 `NA` 表示缺失数据，`Pave` 表示铺设的小巷类型，`127500` 是房屋价格。
    - 后续的 `f.write()` 将更多的行写入文件，记录了不同的房屋数据。每一行数据与列名对应，使用逗号分隔。
    
### 5. **最终结果**
执行完这段代码后，`house_tiny.csv` 文件将会被创建在 `data` 文件夹中。文件的内容会是：
```
NumRooms, Alley, Price
NA, Pave, 127500
2, NA, 106000
4, NA, 180100
NA, NA, 140000
```

- 这个文件是一个简单的 CSV 文件，记录了几个房屋的基本信息。CSV 文件是以逗号分隔的文本格式，广泛用于存储表格数据。

### 总结：
这段代码的作用是：
1. 在父级目录下创建一个 `data` 文件夹（如果它不存在的话）。
2. 在 `data` 文件夹中创建一个名为 `house_tiny.csv` 的文件，并写入列名和几条数据记录。

`os.makedirs()` 用来创建目录，`os.path.join()` 用来组合路径，而 `open()` 用来创建文件并写入内容。

------我是分割线------

从创建的csv文件中加载原始数据集

In [37]:
!pip install pandas  #如果已经安装就注释掉
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms  Alley   Price 
0       NaN   Pave   127500
1       2.0     NA   106000
2       4.0     NA   180100
3       NaN     NA   140000


 为了处理缺失的数据，典型的方法包括*插值* 和 *删除*，这里，我们考虑插值

In [38]:
inputs, outputs = data.iloc[:, 0 : 2], data.iloc[:, 2] #iloc = index location
inputs = inputs.fillna(inputs.mean(numeric_only = True))
print(inputs)

   NumRooms  Alley
0       3.0   Pave
1       2.0     NA
2       4.0     NA
3       3.0     NA


对于`inputs`中的类别值或离散值，我们将"NaN"视为一个类别

In [39]:
inputs = pd.get_dummies(inputs, dummy_na = True).astype(int)
print(inputs)

   NumRooms   Alley_ NA   Alley_ Pave   Alley_nan
0         3           0             1           0
1         2           1             0           0
2         4           1             0           0
3         3           1             0           0


这里相较于案例，我也不知道为什么多了那么多数值

现在`inputs`和`outputs`中的所有条目都是数值模型，它们可以转为张量格式。

In [28]:
import torch

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

(tensor([[3, 0, 0, 1, 0],
         [2, 1, 0, 0, 0],
         [4, 0, 1, 0, 0],
         [3, 1, 0, 0, 0]]),
 tensor([127500., 106000.,     nan, 140000.], dtype=torch.float64))

## Q&A

In [44]:
a = torch.arange(12)
b = a.reshape((3, 4))
b[:] = 2
a

tensor([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])