---
title: Python-模块-NumPy-数据存取
date: 2017-04-17 20:07:00
mathjax: true
categories: "Python-模块"
---

# 一维和二维数据的存取

## 保存

```python
np.savetxt(fname, array, fmt='%.18e', delimiter=None)
```

- fname  
文件、字符串或产生器，可以是.gz或.bz2的压缩文件
- array  
存入文件的数组
- fmt  
写入文件的格式，例如：%d %.2f %.18e
- delimiter  
分割字符串，默认是任何空格

In [2]:
import numpy as np

a = np.arange(100).reshape(5, 20)
np.savetxt('a.csv', a, fmt='%d', delimiter=',')

## 读取-loadtxt

```python
np.loadtxt(fname, dtype=np.float, delimiter=None, unpack=False)
```

- fname  
文件、字符串或产生器，可以是.gz或.bz2的压缩文件
- dtype
数据类型，可选
- delimiter  
分割字符串，默认是任何空格
- unpack  
如果True，每一列将分别写入不同变量

In [6]:
b = np.loadtxt('a.csv', dtype = np.float, delimiter=',')
print(b)

[[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.  11.  12.  13.
   14.  15.  16.  17.  18.  19.]
 [ 20.  21.  22.  23.  24.  25.  26.  27.  28.  29.  30.  31.  32.  33.
   34.  35.  36.  37.  38.  39.]
 [ 40.  41.  42.  43.  44.  45.  46.  47.  48.  49.  50.  51.  52.  53.
   54.  55.  56.  57.  58.  59.]
 [ 60.  61.  62.  63.  64.  65.  66.  67.  68.  69.  70.  71.  72.  73.
   74.  75.  76.  77.  78.  79.]
 [ 80.  81.  82.  83.  84.  85.  86.  87.  88.  89.  90.  91.  92.  93.
   94.  95.  96.  97.  98.  99.]]


In [7]:
b = np.loadtxt('a.csv', dtype = np.float, delimiter=',', unpack=True)
print(b)

[[  0.  20.  40.  60.  80.]
 [  1.  21.  41.  61.  81.]
 [  2.  22.  42.  62.  82.]
 [  3.  23.  43.  63.  83.]
 [  4.  24.  44.  64.  84.]
 [  5.  25.  45.  65.  85.]
 [  6.  26.  46.  66.  86.]
 [  7.  27.  47.  67.  87.]
 [  8.  28.  48.  68.  88.]
 [  9.  29.  49.  69.  89.]
 [ 10.  30.  50.  70.  90.]
 [ 11.  31.  51.  71.  91.]
 [ 12.  32.  52.  72.  92.]
 [ 13.  33.  53.  73.  93.]
 [ 14.  34.  54.  74.  94.]
 [ 15.  35.  55.  75.  95.]
 [ 16.  36.  56.  76.  96.]
 [ 17.  37.  57.  77.  97.]
 [ 18.  38.  58.  78.  98.]
 [ 19.  39.  59.  79.  99.]]


## 读取-genfromtxt


np.genfromtxt()和np.loadtxt()函数类似：

```python
np.genfromtxt(fname, delimiter="", dtype=str, filling_values = [10])
```

但是，np.genfromtxt()提供了对缺失值的处理。  
假设有一张有缺失值的csv的表：

1|2|-
:---:|:---:|:---:
5|-|6
-|-|9

可以使用np.genfromtxt()对每一列的缺失值进行填充：

In [26]:
import numpy as np
# 对每一列填充不同的值
a = np.genfromtxt('a_nan.csv', delimiter=',', dtype = np.float, filling_values=[10, 20, 30])
print(a)

# 所有的缺失值填充相同的值
b = np.genfromtxt('a_nan.csv', delimiter=',', dtype = np.float, filling_values=999)
print(b)

[[  1.   2.  30.]
 [  5.  20.   6.]
 [ 10.  20.   9.]]
[[   1.    2.  999.]
 [   5.  999.    6.]
 [ 999.  999.    9.]]


# 多维数据的存取

## 保存

```python
a.tofile(fname, sep='', format='%s')
```

- fname  
文件、字符串
- sep  
数据分割字符串，**如果是空串，写入文件为二进制**
- format  
写入数据的格式

In [11]:
a = np.arange(18).reshape(3, 6)
a.tofile('a.dat', sep = '', format = '%d')

## 读取

```python
np.fromfile(fname, dtype=float, count=-1, sep='')
```

- fname  
文件、字符串
- dtype  
读取的数据类型
- count  
读入元素个数，‐1表示读入整个文件
- sep  
数据分割字符串，**如果是空串，读入文件为二进制**

In [14]:
b = np.fromfile('a.dat', dtype = np.int32, sep = '')
print(b)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17]


> 注意：a.tofile()和np.fromfile()需要配合使用，并且需要知道存入文件时数组的**维度和元素类型**。可以通过元数据文件来存储额外信息。

# 便捷文件存取

保存：
```python
np.save(fname, array) 或 np.savez(fname, array)
```

- fname  
文件名，以.npy为扩展名，压缩扩展名为.npz
- array  
数组变量

读取:
```python
np.load(fname)
```

- fname  
文件名，以.npy为扩展名，压缩扩展名为.npz

In [19]:
a = np.arange(18).reshape(3, 6)
np.save('a.npy', a)
b = np.load('a.npy')
print(b)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]


如果我们用文本方式打开a.npy文件：
```
揘UMPY F {'descr': '<i4', 'fortran_order': False, 'shape': (3, 6), }          
                            	   
         
               
```
会发现，npy文件中保存了原来数组的大小和类型。