# 数组读写

<h1>Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#从文本中读取数组" data-toc-modified-id="从文本中读取数组-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>从文本中读取数组</a></span><ul class="toc-item"><li><span><a href="#空格（制表符）分割的文本" data-toc-modified-id="空格（制表符）分割的文本-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>空格（制表符）分割的文本</a></span></li><li><span><a href="#逗号分割文件" data-toc-modified-id="逗号分割文件-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>逗号分割文件</a></span></li><li><span><a href="#loadtxt函数" data-toc-modified-id="loadtxt函数-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>loadtxt函数</a></span></li><li><span><a href="#loadtxt的更多特性" data-toc-modified-id="loadtxt的更多特性-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>loadtxt的更多特性</a></span></li><li><span><a href="#loadtxt自定义转换方法" data-toc-modified-id="loadtxt自定义转换方法-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>loadtxt自定义转换方法</a></span></li><li><span><a href="#读写各种格式的文件" data-toc-modified-id="读写各种格式的文件-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>读写各种格式的文件</a></span></li></ul></li><li><span><a href="#将数组写入文件" data-toc-modified-id="将数组写入文件-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>将数组写入文件</a></span></li><li><span><a href="#Numpy二进制格式" data-toc-modified-id="Numpy二进制格式-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Numpy二进制格式</a></span><ul class="toc-item"><li><span><a href="#单个数组的读取" data-toc-modified-id="单个数组的读取-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>单个数组的读取</a></span></li><li><span><a href="#二进制与文本大小比较" data-toc-modified-id="二进制与文本大小比较-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>二进制与文本大小比较</a></span></li><li><span><a href="#保存多个数组" data-toc-modified-id="保存多个数组-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>保存多个数组</a></span></li><li><span><a href="#压缩文件" data-toc-modified-id="压缩文件-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>压缩文件</a></span></li></ul></li></ul></div>

## 从文本中读取数组

In [1]:
import numpy as np

### 空格（制表符）分割的文本

In [3]:
%%writefile myfile.txt
2.1 2.3 3.2 1.3 3.1
6.1 3.1 4.2 2.3 1.8

Writing myfile.txt


In [4]:
data = []
with open('myfile.txt') as f:
    for line in f:
        # 分割方法
        fileds = line.split()
        row_data = [float(x) for x in fileds]
        data.append(row_data)
        
data = np.array(data)

In [5]:
data

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

In [6]:
# 也可以用loadtxt方法
data = np.loadtxt('myfile.txt')
data

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

### 逗号分割文件

In [9]:
%%writefile myfile.txt
2.1, 2.3, 3.2, 1.3, 3.1
6.1, 3.1, 4.2, 2.3, 1.8

Overwriting myfile.txt


对于逗号分隔的文件（通常为.csv格式）,我们可以稍微修改之前繁琐的过程，将 split 的参数变成 ','即可。

In [10]:
data = np.loadtxt('myfile.txt',delimiter=',')
data

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

### loadtxt函数

```python
loadtxt(fname, dtype=<type 'float'>, 
        comments='#', delimiter=None, 
        converters=None, skiprows=0, 
        usecols=None, unpack=False, ndmin=0)
```

* loadtxt 有很多可选参数，其中 delimiter 就是刚才用到的分隔符参数。

* skiprows 参数表示忽略开头的行数，可以用来读写含有标题的文本

In [11]:
%%writefile myfile.txt
X Y Z MAG ANG
2.1 2.3 3.2 1.3 3.1
6.1 3.1 4.2 2.3 1.8

Overwriting myfile.txt


In [12]:
np.loadtxt('myfile.txt',skiprows=1)

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

功能更全的genfromtxt函数
```python
genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, 
           skiprows=0, skip_header=0, skip_footer=0, converters=None, 
           missing='', missing_values=None, filling_values=None, usecols=None, 
           names=None, excludelist=None, deletechars=None, replace_space='_', 
           autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, 
           usemask=False, loose=True, invalid_raise=True)
```

### loadtxt的更多特性

In [13]:
%%writefile myfile.txt
 -- BEGINNING OF THE FILE
% Day, Month, Year, Skip, Power
01, 01, 2000, x876, 13 % wow!
% we don't want have Jan 03rd
04, 01, 2000, xfed, 55

Overwriting myfile.txt


In [14]:
data = np.loadtxt('myfile.txt', 
                  skiprows=1,         #忽略第一行
                  dtype=np.int,      #数组类型
                  delimiter=',',     #逗号分割
                  usecols=(0,1,2,4), #指定使用哪几列数据
                  comments='%'       #百分号为注释符
                 )
data

array([[   1,    1, 2000,   13],
       [   4,    1, 2000,   55]])

### loadtxt自定义转换方法

In [15]:
%%writefile myfile.txt
2010-01-01 2.3 3.2
2011-01-01 6.1 3.1

Overwriting myfile.txt


In [16]:
# 假设我们的文本包含日期，我们可以使用 datetime 在 loadtxt 中处理：
import datetime

def date_converter(s):
    return datetime.datetime.strptime(s, "%Y-%m-%d")

data = np.loadtxt('myfile.txt',
                  dtype=np.object, #数据类型为对象
                  converters={0:date_converter,  #第一列使用自定义转换方法
                              1:float,           #第二第三使用浮点数转换
                              2:float})

data

array([[datetime.datetime(2010, 1, 1, 0, 0), 2.3, 3.2],
       [datetime.datetime(2011, 1, 1, 0, 0), 6.1, 3.1]], dtype=object)

In [17]:
import os
os.remove('myfile.txt')

### 读写各种格式的文件

文件格式	|使用的包|	函数
-------|------|-------
txt|	numpy|	loadtxt, genfromtxt, fromfile, savetxt, tofile
csv	|csv|	reader, writer
Matlab	|scipy.io|	loadmat, savemat
hdf|	pytables, h5py	
NetCDF|	netCDF4, scipy.io.netcdf|	netCDF4.Dataset, scipy.io.netcdf.netcdf_file
文件格式|	使用的包|	备注
wav|	scipy.io.wavfile|	音频文件
jpeg,png,...|	PIL, scipy.misc.pilutil|	图像文件
fits|	pyfits|	天文图像

pandas- 一个用来处理时间序列的包中包含处理各种文件的方法:http://pandas.pydata.org/pandas-docs/stable/io.html

## 将数组写入文件

In [18]:
# savetxt 可以将数组写入文件，默认使用科学计数法的形式保存
data = np.array([[1,2],
                 [3,4]])
np.savetxt('out.txt',data)

In [19]:
with open('out.txt') as f:
    for line in f:
        print line

1.000000000000000000e+00 2.000000000000000000e+00

3.000000000000000000e+00 4.000000000000000000e+00



In [22]:
# 指定输出格式
data = np.array([[1,2],
                [3,4]])
np.savetxt('out.txt',data, fmt="%d") # 输出为整数
with open('out.txt') as f:
    for line in f:
        print line

1 2

3 4



In [23]:
# 逗号分割的输出
data = np.array([[1,2],
                [3,4]])
np.savetxt('out.txt',data,fmt='%.2f',delimiter=',')
with open('out.txt')as f:
    for line in f:
        print line

1.00,2.00

3.00,4.00



更多参数：
```python
savetxt(fname, 
        X, 
        fmt='%.18e', 
        delimiter=' ', 
        newline='\n', 
        header='', 
        footer='', 
        comments='# ')
```

In [24]:
import os
os.remove('out.txt')

## Numpy二进制格式

数组可以储存成二进制格式，单个的数组保存为 `.npy` 格式，多个数组保存为多个`.npy`文件组成的 `.npz` 格式，每个 `.npy` 文件包含一个数组。

与文本格式不同，二进制格式保存了数组的 `shape, dtype`信息，以便完全重构出保存的数组。

保存的方法：

* `save(file, arr)` 保存单个数组，.npy 格式
* `savez(file, *args, **kwds)` 保存多个数组，无压缩的 .npz 格式
* `savez_compressed(file, *args, **kwds)` 保存多个数组，有压缩的 .npz 格式

读取的方法：

* `load(file, mmap_mode=None)` 对于 `.npy`，返回保存的数组，对于 `.npz`，返回一个名称-数组对组成的字典。

### 单个数组的读取

In [25]:
a = np.array([[1.0,2.0], [3.0,4.0]])

fname = 'afile.npy'
np.save(fname, a)

In [26]:
aa = np.load(fname)
aa

array([[1., 2.],
       [3., 4.]])

In [27]:
import os
os.remove(fname)

### 二进制与文本大小比较 

In [42]:
a = np.arange(10000.)

In [43]:
fname = 'a.txt'
bname = 'a.npy'
np.savetxt(fname,a)

In [44]:
# 查看大小
import os
os.stat(fname).st_size

260000L

In [45]:
# 保存为二进制
np.save(bname,a)

In [46]:
os.stat(bname).st_size

80128L

In [47]:
f = [fname,bname]
for name in f:
    os.remove(name)

### 保存多个数组

In [77]:
a = np.array([[1.0,2.0],
             [3.0,4.0]])
b = np.arange(1000)

In [78]:
# 保存多个数组
fname = 'data.npz'
np.savez(fname,a=a,b=b)

In [79]:
# 查看里面包含的文件：
!unzip -l data.npz

Archive:  data.npz
  Length      Date    Time    Name
---------  ---------- -----   ----
      160  2018-07-19 10:36   a.npy
     4128  2018-07-19 10:36   b.npy
---------                     -------
     4288                     2 files


In [80]:
data = np.load(fname)
data.keys()

['a', 'b']

In [81]:
data['a']

array([[1., 2.],
       [3., 4.]])

In [82]:
# 要先删除 data，否则删除时会报错
del data
os.remove('data.npz')

### 压缩文件

In [83]:
# 当数据比较整齐时：
a = np.arange(20000.)

In [84]:
# 无压缩大小
import os
fname = 'a.npz'
np.savez(fname,a=a)
os.stat(fname).st_size

160236L

In [85]:
# 有压缩大小，差不多6倍压缩
import os
fname = 'a.npz'
np.savez_compressed(fname,a=a)
os.stat(fname).st_size

26888L

In [88]:
# 当数据比较混乱时
a = np.random.rand(20000)

In [89]:
# 无压缩大小
import os
fname = 'a.npz'
np.savez(fname,a=a)
os.stat(fname).st_size

160236L

In [90]:
# 有压缩大小，差不多1.06倍压缩
import os
fname = 'a.npz'
np.savez_compressed(fname,a=a)
os.stat(fname).st_size

151062L

In [91]:
os.remove(fname)

In [92]:
!ls

01-numpy-overview.ipynb
02-matplotlib-basics.ipynb
03-numpy-arrays.ipynb
04-array-types.ipynb
05-array-calculation-method.ipynb
06-sorting-numpy-arrays.ipynb
07-array-shapes.ipynb
08-diagonals.ipynb
09-data-to-&-from-string.ipynb
10-array-attribute-&-method-overview.ipynb
11-array-creation-functions.ipynb
12-matrix-object.ipynb
13-general-functions.ipynb
14-vectorizing-functions.ipynb
15-binary-operators.ipynb
16-universal-functions.ipynb
17-choose.ipynb
18-array-broadcasting.ipynb
19-reading-and-writing-arrays.ipynb
