# 数组对象的文件操作

本节介绍如何将数组（ndarray）对象保存到文件中去，以及如何读取文件数到数组（ndarray）对象。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 二进制文件

如下函数可以实现 Numpy 读取与写入二进制文件：
- `np.save()`，保存单个数组对象到到一个文件(`.npy`)；
- `np.savez()`，保存多个数组对象到一个文件(`.npz`)；
- `np.savez_compressed()`，保存多个数组对象到一个文件(`.npz`)，并进行压缩；
- `np.load()`，读取二进制文件。

### `np.save()`

保存单个数组对象到到一个文件(`.npy`)，其调用语法为：
```python
np.save(file, arr, allow_pickle=True, fix_imports=True)
```
其中主要参数说明：
- `allow_pickle`：允许使用`pickle`的方式来保存对象。出于安全性和兼容性的考虑，会禁用pickle
    - 安全性：加载一个`pickle`的数据时，会执行其中保存的任何代码
    - 兼容性：`pickle`对象对版本有要求，不同版本的`python`不兼容

In [None]:
# 保存单个array
arr1 = np.array([[1,2,3], [4,5,6]])
np.save('arr1.npy', arr1)

In [None]:
%ls arr1.npy

### `np.savez()`

保存多个数组对象到一个文件(`.npz`)，其调用语法为：
```python
np.savez(file, *args, **kwds)
```
其中主要参数说明：
- `args`：不定位置参数，以列表参数的方式指定要保存的数组对象
- `kwargs`：不定关键字参数，以命名参数的方式指定数组对象

In [None]:
# 保存多个array
arr_x = np.array([1, 2, 3])
arr_y = np.array(['a', 'b', 'c'])
np.savez('arr_x_y.npz', arr_x, arr_y)

In [None]:
%ls arr_x_y.npz

### `np.load()`

`np.load()`可以读`.npy`和`.npz`文件，读取`.npy`文件直接返回数组；读取`.npz`文件返回一个`NpzFile`对象，通过其方法`keys()`查看包含的数组。其调用语法为：
```python
np.load(file, mmap_mode=None, allow_pickle=True, fix_imports=True, encoding='ASCII')
```
其中参数说明：
- `fname`：文件名，如果以.gz或.bz2结尾则自动解压
- `mmap_mode`：可选值{None, 'r+', 'r', 'w+', 'c'}。如果不是None，则会用指定的模式把内存块映射为一个file对象。可以实现访问array中的一部分而不用把整个array导入内存
- `fix_import`：仅在使用 python3 来读取 python2 生成的含 pickle 对象的文件时有用
- `encoding`：仅使用 python3 来读取 python2 生成的含 pickle 对象的文件时有用，可选值有{'latin1', 'ASCII', 'bytes'}

In [None]:
# 读取
rarr1 = np.load('arr1.npy')
rarr1

In [None]:
# 读取
with np.load('arr_x_y.npz') as data:
    print(data.keys())
    rx = data['arr_0']
    ry = data['arr_1']
    
print(rx, ry)

## 文本文件

如下函数可以实现 Numpy 读取与写入文本文件：
- `np.loadtxt()`
- `np.savetxt()`

### `np.loadtxt()`

`np.loadtxt()`函数可以从文件中读取数据：
```
np.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, 
           converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)
```
其中参数说明：
- `fname`：文件名，如果以.gz或.bz2结尾则自动解压
- `dtype`：数据类型
- `comments`：注释
- `delimiter`：分隔符，默认为空格
- `converter`：转换函数字典，通过以列下标为key，为每列定义一个转换函数
- `skiprows`：跳过开头的若干行
- `usecols`：保留指定的列，下标从0开始
- `unpack`：如果为True，可以用变量捕获每一列
- `ndmin`：最小的维数

例如从csv文件读取股价数据：

In [None]:
datafile = 'assets/goog.csv'

c, v = np.loadtxt(datafile, delimiter=',', skiprows=1, usecols=(6,5), unpack=True)

In [None]:
c, v

下面计算如下内容：
- 计算收盘价的中位数
- 计算收盘价的方差

In [None]:
print("median =", np.median(c))
print('variance = ', np.var(c))

In [None]:
plt.plot(c)

### `np.savetxt()`

`np.savetxt()`函数可以把数组保存到指定文件，其语法格式为：
```
savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ', encoding=None)
```
其中参数说明：
- `fname`：文件名，如果以.gz结尾则自动以gzip压缩
- `X`：要保存的array
- `fmt`：保存的格式，可以是单个格式的字符串，格式列表或多格式的字符串
- `delimiter`：分隔符
- `newline`：换行符
- `header`：首行输出内容
- `footer`：末行输出内容
- `comments`：在header和footer前插入的字符，表示注释

In [None]:
i2 = np.eye(10) 
outfile = 'data.csv'
np.savetxt(outfile, i2, delimiter=',', fmt='%d', header='np.eye')

In [None]:
%cat data.csv

## 不推荐

不建议使用数组对象的`tofile()`方法写出到文件，也不推荐使用`np.fromfile()`方法来读取文件。这些方法不支持跨平台操作，其字节顺序和数组形状信息会丢失。

In [None]:
# 使用ndarray.tofile保存
arr1 = np.array([[1,2,3], [4,5,6]])
arr1.tofile('arr1.bin')
arr1

In [None]:
# 需指定同样的数据类型，且array维度信息丢失
rarr1 = np.fromfile('arr1.bin', dtype=np.int_)
rarr1

In [None]:
# 指定一个不同的类型
rarr1 = np.fromfile('arr1.bin', dtype=np.float_)
rarr1

In [None]:
# 类型相同，字节顺序不同也不行
rarr1 = np.fromfile('arr1.bin', dtype='>i8')
rarr1

由上可知，不要使用这些方法。