# 数组读写

# 从文本中读取数组

In [25]:
import numpy as np

### 空格（制表符）分割的文本

假设我们有这样的一个空白分割的文件：

In [26]:
%%writefile myfile.txt
2.1 2.3  3.2 1.3 3.1
6.1 3.1  4.2 2.3 1.8

Overwriting myfile.txt


为了生成数组，我们首先将数据转化成一个列表组成的列表，再讲这个列表转换为数组：

In [27]:
data = []
with open('myfile.txt','r') as f:
    for line in f:
        fileds = line.split()
        row_data = [float(x) for x in fileds]
        data.append(row_data)
data = np.array(data)

In [28]:
data

array([[ 2.1,  2.3,  3.2,  1.3,  3.1],
       [ 6.1,  3.1,  4.2,  2.3,  1.8]])

### 逗号分割文件

对于逗号分隔的文件（通常为.csv格式）,我们可以稍微修改之前繁琐的过程，将 split 的参数变成 ','即可。

不过，loadtxt 函数也可以读这样的文件，只需要制定分割符的参数即可：

In [29]:
%%writefile myfile.txt
2.1, 2.3, 3.2, 1.3, 3.1
6.1, 3.1, 4.2, 2.3, 1.8

Overwriting myfile.txt


In [30]:
data = np.loadtxt('myfile.txt', delimiter=',')
data

array([[ 2.1,  2.3,  3.2,  1.3,  3.1],
       [ 6.1,  3.1,  4.2,  2.3,  1.8]])

### loadtxt函数

    loadtxt(fname, dtype=<type 'float'>, 
            comments='#', delimiter=None, 
            converters=None, skiprows=0, 
            usecols=None, unpack=False, ndmin=0)

`loadtxt` 有很多可选参数，其中 `delimiter` 就是刚才用到的分隔符参数。

`skiprows` 参数表示忽略开头的行数，可以用来读写含有标题的文本

In [31]:
%%writefile myfile.txt
X Y Z MAG ANG
2.1 2.3 3.2 1.3 3.1
6.1 3.1 4.2 2.3 1.8

Overwriting myfile.txt


In [32]:
np.loadtxt('myfile.txt', skiprows=1)

array([[ 2.1,  2.3,  3.2,  1.3,  3.1],
       [ 6.1,  3.1,  4.2,  2.3,  1.8]])

此外，有一个功能更为全面的 `genfromtxt` 函数，能处理更多的情况，但相应的速度和效率会慢一些。

    genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, 
               skiprows=0, skip_header=0, skip_footer=0, converters=None, 
               missing='', missing_values=None, filling_values=None, usecols=None, 
               names=None, excludelist=None, deletechars=None, replace_space='_', 
               autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, 
               usemask=False, loose=True, invalid_raise=True)

import os 
os.remove('myfile.txt')

如下表所示：

文件格式|使用的包|函数
----|----|----
txt | numpy | loadtxt, genfromtxt, fromfile, savetxt, tofile
csv | csv | reader, writer
Matlab | scipy.io | loadmat, savemat
hdf | pytables, h5py| 
NetCDF | netCDF4, scipy.io.netcdf | netCDF4.Dataset, scipy.io.netcdf.netcdf_file
**文件格式**|**使用的包**|**备注**
wav | scipy.io.wavfile | 音频文件
jpeg,png,...| PIL, scipy.misc.pilutil | 图像文件
fits | pyfits | 天文图像

此外， `pandas` ——一个用来处理时间序列的包中包含处理各种文件的方法，具体可参见它的文档：

http://pandas.pydata.org/pandas-docs/stable/io.html 

## 将数组写入文件

`savetxt` 可以将数组写入文件，默认使用科学计数法的形式保存： 

In [51]:
data = np.array([[1,2], 
                 [3,4]])

np.savetxt('out.txt', data)

In [53]:
with open('out.txt') as f:
    for line in f:
        print(line,)

1.000000000000000000e+00 2.000000000000000000e+00

3.000000000000000000e+00 4.000000000000000000e+00



In [54]:
data = np.array([[1,2], 
                 [3,4]])

np.savetxt('out.txt', data, fmt="%d") #保存为整数

In [56]:
with open('out.txt') as f:
    for line in f:
        print(line,)

1 2

3 4



In [57]:
data = np.array([[1,2], 
                 [3,4]])

np.savetxt('out.txt', data, fmt="%.2f", delimiter=',') #保存为2位小数的浮点数，用逗号分隔

In [58]:
with open('out.txt') as f:
    for line in f:
        print(line,)

1.00,2.00

3.00,4.00



In [59]:
data = np.array([[1+1j,2], 
                 [3,4]])

np.savetxt('out.txt', data, fmt="%.2f", delimiter=',') #保存为2位小数的浮点数，用逗号分隔

In [60]:
with open('out.txt') as f:
    for line in f:
        print(line,)

 (1.00+1.00j), (2.00+0.00j)

 (3.00+0.00j), (4.00+0.00j)



更多参数：

    savetxt(fname, 
            X, 
            fmt='%.18e', 
            delimiter=' ', 
            newline='\n', 
            header='', 
            footer='', 
            comments='# ')

os.remove('out.txt')

## Numpy二进制格式

数组可以储存成二进制格式，单个的数组保存为.npy格式，多个数组保存为多个.npy文件组成的.npz格式，每个.npy文件包含一个数组

与文本格式不同，二进制格式保存了数组的 `shape, dtype` 信息，以便完全重构出保存的数组。

保存的方法：

- `save(file, arr)` 保存单个数组，`.npy` 格式
- `savez(file, *args, **kwds)` 保存多个数组，无压缩的 `.npz` 格式
- `savez_compressed(file, *args, **kwds)` 保存多个数组，有压缩的 `.npz` 格式

读取的方法：

- `load(file, mmap_mode=None)` 对于 `.npy`，返回保存的数组，对于 `.npz`，返回一个名称-数组对组成的字典。

### 单个数组的读写

In [63]:
a = np.array([[1,2],[3,4]])
fname = 'afile.npy'
np.save(fname,a)

In [64]:
aa = np.load(fname)
aa

array([[1, 2],
       [3, 4]])

In [66]:
import os
os.remove('afile.npy')

### 二进制与文本大小比较

In [67]:
a = np.arange(10000.)

保存为文本：

In [68]:
np.savetxt('a.txt',a)

查看大小：

In [69]:
import os 
os.stat('a.txt').st_size

250000

保存为二进制：

In [70]:
np.save('a.npy',a)
os.stat('a.npy').st_size

80080

In [71]:
os.remove('a.npy')
os.remove('a.txt')

可以看到，二进制文件大约是文本文件的三分之一。

## 保存多个数组：

In [72]:
a = np.array([[1,2],
             [3,4]])
b = np.arange(1000)

In [73]:
np.savez('data.npz',a=a,b=b)

 载入数据：

In [78]:
 data=np.load('data.npz')

In [79]:
data.keys()

['a', 'b']

In [80]:
data['a']

array([[1, 2],
       [3, 4]])

In [82]:
data['b'].shape

(1000,)

In [83]:
del data
os.remove('data.npz')

### 压缩文件

当数据比较整齐时：

In [84]:
a = np.arange(20000.)

无压缩大小：

In [85]:
np.savez('a.npz',a=a)
os.stat('a.npz').st_size

160188

有压缩大小：

In [86]:
np.savez_compressed('a2.npz',a=a)
os.stat('a2.npz').st_size

26883

大约有 6x 的压缩效果。

当数据比较混乱时：

In [87]:
a = np.random.rand(2000)

In [88]:
np.savez('a.npz',a=a)
os.stat('a.npz').st_size

16188

In [89]:
np.savez_compressed('a2.npz', a=a)
os.stat('a2.npz').st_size

15271

只有大约 1.06x 的压缩效果。

In [90]:
os.remove('a.npz')
os.remove('a2.npz')