## 06.numpy的输入输出

* numpy 二进制文件
* numpy 文本文件
* numpy 文本格式选项

### 二进制文件



**np.save(),np.savez()：** numpy中以独特的二进制类型（.npy, .npz）保存数据，但是save()保存的文件很难和其他语言兼容

**np.load()：** numpy中读取二进制文件函数

npy格式： 以二进制的方式保存文件，第一行存储数据的元信息（维度ndim，数据类型dtype，数据大小shape）

npz格式： 压缩打包的方式，可直接用解压文件



* **np.save(file,arr,allow_pickle = True,fix_import=True)**
 
 以numpy中二进制文件的方式存储文件
 
 参数说明：
> * file : 文件路径
> * arr：需要存储的数组
> * allow_pickle：可选，布尔值，允许保存对象数组
> * fix_imports： 可选，为了方便py2读取py3的数据


* **np.savez(file,*args,**kwds)    ###  *args这种参数是什么意思？
 
  将多个数组保存到.npz为扩展名的文件中
 
   参数说明：
> * file : 文件路径，扩展名为 .npz
> * args：需要存储的数组
> * allow_pickle：可选，布尔值，允许保存对象数组


* **numpy.load(file, mmap_mode=None, allow_pickle=False, fix_imports=True, encoding='ASCII') **   
 
  加载.npy .npz文件
 
   参数说明：
   
> * file : 文件路径
> * mmap_mode：读取大文件的一小部分的时候运用
> * allow_pickle：可选，布尔值，允许保存对象数组
> * fix_imports ：布尔值，可选，为了方便py2读取py3的数据
> * encoding ： 编码方式，只用于py2

【例1】np.save() 保存文件

In [10]:
import numpy as np


savefile = "./test1"
np.random.seed(2020) # 设置随机数种子，保证多次生成的随机数一致

x = np.random.uniform(0,1,[3,5]) # 随机生成3*5的数组，范围在 0-1

np.save(savefile,x)

y = np.load("test1.npy")
print(y)

[[0.98627683 0.87339195 0.50974552 0.27183571 0.33691873]
 [0.21695427 0.27647714 0.34331559 0.86215894 0.15669967]
 [0.14088724 0.75708028 0.73632492 0.35566309 0.34109302]]


【例2】 np.savez() 保存文件

In [14]:
datafile = "./test.npz"

x = np.linspace(0,np.pi,num=5) # 生成0-pi的长度为5的等差数列

y = np.sin(x)

z = np.cos(x)

np.savez(datafile,x,y,rename_z = z)

test = np.load(datafile)
np.set_printoptions(suppress=True) # 设置打印格式，suppress 布尔值 是否压缩科学计数法，默认False
print('test',test.files)


test ['rename_z', 'arr_0', 'arr_1']


In [15]:
print(test['rename_z'])

[ 1.          0.70710678  0.         -0.70710678 -1.        ]


In [16]:
print(test['arr_0'])

[0.         0.78539816 1.57079633 2.35619449 3.14159265]


### 文本文件

**np.savetxt() , np.loadtxt(), np.genfromtxt()** 用来读取和加载 文本文件（txt、csv）

genfromtxt() 函数比loadtxt() 更加强大，可以处理缺失文件

* **np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ', encoding=None)**
 
将数组按txt文件存储
 
 参数说明：
> * fname : 文件路径
> * X：需要存储的数组
> * fmt：字符串格式，默认'%.18e'（保留18位小数的浮点数形式）。
> * delimiter : 分隔形式，默认空格


* **np.loadtxt(fname, dtype=float, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None)**
 
将数组按txt文件存储

[参考解释文章](https://blog.csdn.net/weixin_43593330/article/details/89882187)
 
 参数说明：
> * fname : 文件路径
> * dtype：加载后的数据格式，默认float
> * comments：行的开头为# 就会跳过该行 ？？
> * delimiter： 分隔形式
> * converters: 字典形式，对指定行或列执行指定的函数操作 （下面会有示例）
> * skiprows: 跳过前面几行，默认为0
> * usecols： 用来读取指定列
> * unpack： 将每一列当做向量输出，而不是合并在一起


**【例3】txt文件的读写**

In [55]:
datafile = "./test.txt"

x = np.arange(10).reshape(2,5)  # reshape 将arange生成的一维数组转化为 2*5 的二维数组

#
np.savetxt(datafile,x)

#简单的加载文件

y = np.loadtxt(datafile)
print(y)

[[0. 1. 2. 3. 4.]
 [5. 6. 7. 8. 9.]]


**【例4】loadtxt相关参数的使用 **


In [34]:
# delimiter =  '', ,读取分隔符号

y = np.loadtxt(datafile,delimiter=' ')
print(y)

[[0. 1. 2. 3. 4.]
 [5. 6. 7. 8. 9.]]


In [32]:
#skiprows = n  跳过前n行

y = np.loadtxt(datafile,delimiter=' ',skiprows = 1)
print(y)

[5. 6. 7. 8. 9.]


In [39]:
#usecol = (0,1) 指定读取列

y = np.loadtxt(datafile,delimiter=' ',skiprows = 1,usecols = (0,1,2))
print(y)

[5. 6. 7.]


In [43]:
#unpack = True 不组合输出，而是把每一列当做向量输出

a,b,c= np.loadtxt(datafile,delimiter=' ',skiprows = 0,usecols = (0,1,2),unpack=True)
print(a,b,c)

[0. 5.] [1. 6.] [2. 7.]


**【例5】读取csv文件 **

In [46]:
datafile = "./test.csv"

#
x = np.arange(0,10,0.5).reshape(4,-1)

# 
np.savetxt(datafile,x,delimiter=",",fmt='%.3f')  # 保留3位小数，分隔符逗号保存

# 
y = np.loadtxt(datafile,delimiter=',')  # 存储读取的分隔符要一致
print(y)

[[0.  0.5 1.  1.5 2. ]
 [2.5 3.  3.5 4.  4.5]
 [5.  5.5 6.  6.5 7. ]
 [7.5 8.  8.5 9.  9.5]]


* **np.genfromtxt**

(fname, dtype=float, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=''.join(sorted(NameValidator.defaultdeletechars)), replace_space='_', autostrip=False, case_sensitive=True, defaultfmt="f%i", unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')
 
读取txt文件，并按照指定模式处理缺失值


 
 参数说明：
> * fname : 文件路径
> * dtype：加载后的数据格式，默认float
> * comments：行的开头为# 就会跳过该行 ？？
> * delimiter： 分隔形式
> * skip_header: 
> * skip_footer:
> * converters: 字典形式，对指定行或列执行指定的函数操作 
> * name: 设置为True时，默认把第一行作为csv文件的名称

【例6】 np.genfromtxt() 读取有空值的csv文件

In [54]:
datafile = "./data1.csv"

y2 = np.genfromtxt(datafile,delimiter=',',names=True)  

print('y2',y2) # 读取的时候自动填补空值

y2 [(1., 123., 1.4, 23.) (2., 110., nan, 18.) (3.,  nan, 2.1, 19.)]


### 文本打印格式选项

* **numpy.set_printoptions**

（precision=None,threshold=None, edgeitems=None,linewidth=None, suppress=None, nanstr=None, infstr=None,formatter=None, sign=None, floatmode=None, **kwarg）
 
设置打印格式
 
 参数说明：
>* precision：设置浮点精度，控制输出的小数点个数，默认是8。
>* threshold：概略显示，超过该值则以“…”的形式来表示，默认是1000。
>* linewidth：用于确定每行多少字符数后插入换行符，默认为75。
>* suppress：当suppress=True，表示小数不需要以科学计数法的形式输出，默认是False。
>* nanstr：浮点非数字的字符串表示形式，默认nan。
>* infstr：浮点无穷大的字符串表示形式，默认inf。

【例7】numpy.set_printoptions设置打印格式

In [56]:
# precision：设置浮点精度，控制输出的小数点个数，默认是8
x = np.array([3.14159625])
np.set_printoptions(precision=4)
print(x)

[3.1416]


In [63]:
#  threshold：概略显示，超过该值则以“…”的形式来表示，默认是1000。
np.set_printoptions(threshold=10000) # 不是指阈值，是指一次最多显示50个数
x =np.arange(0,100)
print("threshold=10000",x)

np.set_printoptions(threshold=10)
print("threshold=10",x)

threshold=10000 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
threshold=10 [ 0  1  2 ... 97 98 99]


In [70]:
#  当suppress=True，表示小数不需要以科学计数法的形式输出，默认是False

ee = np.finfo(float).eps
print(ee)
x = np.arange(4.)
x = x ** 2 - (x + ee) ** 2
np.set_printoptions(suppress=False)
print("suppress = Flase",x)  

np.set_printoptions(suppress=True)
print(x)  # [-0. -0.  0.  0.]

2.220446049250313e-16
suppress = Flase [-4.9304e-32 -4.4409e-16  0.0000e+00  0.0000e+00]
[-0. -0.  0.  0.]
