# <center>Numpy读写文件</center>

NumPy 文件读写主要有二进制的文件读写和文件列表形式的数据读写两种形式

* 读取/保存二进制格式文件
    * save 函数是以二进制的格式保存数据。   格式:   np.save ("./save_arr ", arr1)
    * load 函数是从二进制的文件中读取数据。   格式:   np.load("./ save_arr.npy")
    * savez 函数可以将多个数组保存到一个文件中。   格式:   np.savez('./savez_arr',arr1,arr2)

* 读取/保存文本格式（TXT CSV 格式）文件
    * savetxt 函数是将数组写到某种分隔符隔开的文本文件中。   格式:   np.savetxt("./arr.txt", arr, fmt="%d", delimiter=",")
    * loadtxt 函数执行的是把文件加载到一个二维数组中。   格式:   np.loadtxt("./arr.txt",delimiter=",")
    * genfromtxt 函数面向的是结构化数组和缺失数据。   格式:   np.genfromtxt("./arr2.txt", delimiter = ",")

## 1. 读取/保存二进制格式文件

In [2]:
#save() 函数是以二进制的格式保存数据
import numpy as np
 
arr1 = np.arange(40).reshape((5,8))
print(arr1)

 
# 保存二进制文件,npy格式是一个数组的文件保存
np.save('../data/save_arr',arr1)  

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]]


In [2]:
# load() 函数是从二进制的文件中读取数据
arr3 = np.load('../data/save_arr.npy')  # 读取二进制文件
print(arr3)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]]


In [3]:
#savez() 函数可以将多个数组保存到一个文件中

import numpy as np
 
arr1 = np.arange(40).reshape((5,8))
arr2 = np.arange(1,10,1)
print(arr1)
print(arr2)
 
np.savez('../data/savez_arr',arr1,b=arr2)  

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]]
[1 2 3 4 5 6 7 8 9]


In [4]:
# 仍是通过load函数读取
load_data = np.load('../data/savez_arr.npz')  # 读取二进制文件
print(load_data)
# 查看文件
print(load_data.files)
   
print(load_data['arr_0'])
print(load_data['b'])
 

<numpy.lib.npyio.NpzFile object at 0x0000021441F7D9D0>
['b', 'arr_0']
[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]]
[1 2 3 4 5 6 7 8 9]


### 优缺点  
* 优点：
    * npy 文件可以保存任意维度的 numpy 数组，不限于一维和二维；
    * npy 保存了 numpy 数组的结构，保存的时候是什么 shape 和 dtype，取出来时就是什么样的 shape 和 dtype；
    * 可以同时保存多个 numpy 数组；  
* 缺点：
    * 保存多个 numpy 数组时，只能同时保存
    * 查看不便

## 2. 读取/保存文本格式（TXT CSV 格式）文件

In [4]:
#savetxt() 函数是将数组写到某种分隔符隔开的文本文件中;

import numpy as np
 
arr = np.arange(0,9,1).reshape(3,-1) # -1的意思是根据行数自动匹配列数
print(arr)

# fmt='%d'表示保存为整数，delimiter=","表示用','隔开
np.savetxt('../data/arr.txt',arr,fmt='%d',delimiter=',')    # 保存


[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [6]:
#  loadtxt() 函数执行的是把文件加载到一个数组中，默认dtype 为float
load_txt = np.loadtxt('../data/arr1.txt', dtype=np.int64, delimiter=',',skiprows=1)  # 读取
load_txt

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]], dtype=int64)

In [11]:
#  loadtxt() 函数执行时数据类型需一致，如果存在表头，skiprows=1
load_txt = np.loadtxt('../data/arr1.txt', dtype=np.int64, delimiter=',',skiprows=1)  # 读取
load_txt

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]], dtype=int64)

In [21]:
# genfromtxt 函数面向的是结构化数组和缺失数据(基本操作),通过 skip_header=1跳过第一行
load_txt = np.genfromtxt('../data/arr2.txt',delimiter=',')  # 读取
print(load_txt)

[[nan nan nan]
 [ 0.  1.  2.]
 [ 3. nan  5.]
 [ 6.  7.  8.]]


In [20]:
# 指定缺失值用0填充
load_txt = np.genfromtxt('../data/arr2.txt',delimiter=',',
                         skip_header=1,missing_values = 'NA', filling_values = 0)
print(load_txt)

[[0. 1. 2.]
 [3. 0. 5.]
 [6. 7. 8.]]


* 优点：
    * 查看方便
* 缺点：
    * csv 和 txt 只能用来存一维或二维 numpy 数组;
    * 不能追加保存，即每次 np.savetxt() 都会覆盖之前的内容