NumPy的文件读/写主要有二进制的文件读/写和文件列表形式的数据读/写两种形式。学会读/写文件是利用NumPy进行数据处理的基础。NumPy提供了若干函数，可以把结果保存到二进制或文本文件中。除此之外，NumPy还提供了许多从文件读取数据并将其转换为数组的方法。

save函数以二进制的格式保存数据，load函数从二进制的文件中读取数据。

np.save(file, arr, allow_pickle=True, fix_imports=True)

参数 file 为要保存的文件的名称，需要指定文件保存的路径，如果未设置，则保存到默认路径下面；参数arr为需要保存的数组。简而言之，就是把数组arr保存至名称为“file”的文件中，其文件的扩展名.npy是系统自动添加的。

In [1]:
import numpy as np

In [2]:
arr = np.arange(100).reshape(10,10)
np.save('./savedir/2.3_save_arr', arr)
print('保存的数组为：\n', arr)

保存的数组为：
 [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


In [3]:
arr1 = np.array([[1,2,3], [4,5,6]])
arr2 = np.arange(0,1.0,0.1)
np.savez('./savedir/2.3_savez_arr', arr1, arr2)
print('保存的数组1为：\n', arr1)
print('保存的数组2为：\n', arr2)

保存的数组1为：
 [[1 2 3]
 [4 5 6]]
保存的数组2为：
 [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


load函数读取二进制文件，文件名作为参数。

In [4]:
loaded_data = np.load('./savedir/2.3_save_arr.npy')
print('读取的数组为：\n', loaded_data)

读取的数组为：
 [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


In [5]:
loaded_data1 = np.load('./savedir/2.3_savez_arr.npz')
print('读取的数组1为：\n', loaded_data1['arr_0'])

读取的数组1为：
 [[1 2 3]
 [4 5 6]]


In [6]:
print('读取的数组2为：\n', loaded_data1['arr_1'])

读取的数组2为：
 [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


savetxt函数可将数组写到以某种分隔符隔开的文本文件中，语法格式如下：

np.savetxt(fname, X, fmt='%.18e', delimiter=' ',newline='\n', header='',footer='', comments='# ')

第一个参数是文件名“fname”，第二个参数X为数组数据，第四个参数为数据分隔符“delimiter”。

loadtxt函数执行的是相反的操作，即把文件加载到一个二维数组中。

In [7]:
arr = np.arange(-0, 12, 0.5).reshape(4, -1)
print('创建的数组为：\n', arr)

创建的数组为：
 [[ 0.   0.5  1.   1.5  2.   2.5]
 [ 3.   3.5  4.   4.5  5.   5.5]
 [ 6.   6.5  7.   7.5  8.   8.5]
 [ 9.   9.5 10.  10.5 11.  11.5]]


In [8]:
# fmt="%d"表示保存为整数
np.savetxt('./savedir/2.3_arr.txt', arr, fmt='%d', delimiter=',')
# 读入的时候也需要制定逗号分隔符
loaded_data = np.loadtxt('./savedir/2.3_arr.txt', delimiter=',')
print('读取的数组为：\n', loaded_data)

读取的数组为：
 [[ 0.  0.  1.  1.  2.  2.]
 [ 3.  3.  4.  4.  5.  5.]
 [ 6.  6.  7.  7.  8.  8.]
 [ 9.  9. 10. 10. 11. 11.]]


genfromtxt函数和loadtxt函数相似，不过它面向的是结构化数组和缺失数据。它通常使用的参数有3个，即存放数据的文件名参数“fname”、用于分隔的字符参数“delimiter”和是否含有列标题参数“names”。

输出的结果是一组结构化的数据（结构化数组可以用 dtype 选项指定一系列用逗号隔开的说明符，指明构成结构体的元素以及它们的数据类型和顺序），数据从第二行开始。因为names参数默认第一行为数据的列名，所以数据从第二行开始。

In [9]:
loaded_data = np.genfromtxt('./savedir/2.3_arr.txt', delimiter=',')
print('读取数组为：\n', loaded_data)

读取数组为：
 [[ 0.  0.  1.  1.  2.  2.]
 [ 3.  3.  4.  4.  5.  5.]
 [ 6.  6.  7.  7.  8.  8.]
 [ 9.  9. 10. 10. 11. 11.]]


NumPy的排序方式主要可以概括为直接排序和间接排序两种。直接排序指对数值直接进行排序；间接排序是指根据一个或多个键对数据集进行排序。

sort函数是最常用的排序方法，无返回值。如果目标函数是一个视图，则原始数据将会被修改。使用sort函数排序时可以指定一个axis参数，使得sort函数可以沿着指定轴对数据集进行排序。

In [10]:
# 设置随机种子
np.random.seed(42)
# 生成随机数组
arr = np.random.randint(1, 10, size=10)
print('创建的数组为：\n', arr)

创建的数组为：
 [7 4 8 5 7 3 7 8 5 4]


In [11]:
# 直接排序
arr.sort()
print('排序后数组为：\n', arr)

排序后数组为：
 [3 4 4 5 5 7 7 7 8 8]


In [12]:
# 生成3行3列的随机数组
arr = np.random.randint(1, 10, size=(3,3))
print('创建的数组为：\n', arr)

创建的数组为：
 [[8 8 3]
 [6 5 2]
 [8 6 2]]


In [13]:
# 沿着横轴排序
arr.sort(axis=1)
print('创建的数组为：\n', arr)

创建的数组为：
 [[3 8 8]
 [2 5 6]
 [2 6 8]]


In [14]:
# 沿着纵轴排序
arr.sort(axis=0)
print('创建的数组为：\n', arr)

创建的数组为：
 [[2 5 6]
 [2 6 8]
 [3 8 8]]


使用argsort函数和lexsort函数，可以在给定一个或多个键时，得到一个由整数构成的索引数组，索引值表示数据在新的序列中的位置。

In [15]:
arr = np.array([2,3,6,8,0,7])
print('创建的数组为：\n', arr)

创建的数组为：
 [2 3 6 8 0 7]


In [16]:
# 返回值为重新排序的下标
print('排序后的数组为：\n', arr.argsort())

排序后的数组为：
 [4 0 1 2 5 3]


lexsort函数可以一次性对满足多个键的数组执行间接排序。

In [17]:
a = np.array([3, 2, 6, 4, 5])
b = np.array([50, 40, 30, 20, 10])
c = np.array([400, 300, 600, 100, 200])
# lexsort函数只接受一个参数，即（a,b,c）
# 多个键值排序时是按照最后一个传入数据计算
d = np.lexsort((a, b, c))
print('排序后数组为：\n', list(zip(a[d], b[d], c[d])))

排序后数组为：
 [(4, 20, 100), (5, 10, 200), (2, 40, 300), (3, 50, 400), (6, 30, 600)]


在统计分析的工作中，难免会出现“脏”数据的情况。重复数据就是“脏”数据的情况之一。若一个一个地手动删除，耗时费力，效率低。在NumPy中，可以通过unique函数找出数组中的唯一值并返回已排序的结果。

In [18]:
names = np.array(['小明', '小黄', '小花', '小明', '小花'])
print('创建的数组为：\n', names)

创建的数组为：
 ['小明' '小黄' '小花' '小明' '小花']


In [19]:
print('去重后数组为：\n', np.unique(names))
print('去重后数组为：\n', sorted(set(names)))

去重后数组为：
 ['小明' '小花' '小黄']
去重后数组为：
 ['小明', '小花', '小黄']


In [20]:
# 创建数值型数据
ints = np.array([1, 2, 3, 4, 4, 5, 6, 6, 7, 8, 8, 9, 10])
print('创建的数组为：\n', ints)

创建的数组为：
 [ 1  2  3  4  4  5  6  6  7  8  8  9 10]


In [21]:
print('去重后的数组为：\n', np.unique(ints))

去重后的数组为：
 [ 1  2  3  4  5  6  7  8  9 10]


另一种情况，在统计分析中也经常遇到，即需要把一个数据重复若干次。在 NumPy中主要使用tile函数和repeat函数实现数据重复。

tile函数主要有两个参数，参数“A”指定重复的数组，参数“reps”指定重复的次数。

tile函数的格式如下：numpy.tile(A, reps)

In [22]:
arr = np.arange(5)
print('创建的数组为：', arr)

创建的数组为： [0 1 2 3 4]


In [23]:
print('重复后的数组为：', np.tile(arr, 3))

重复后的数组为： [0 1 2 3 4 0 1 2 3 4 0 1 2 3 4]


repeat函数主要有3个参数，参数“a”指定需要重复的数组元素，参数“repeats”指定重复次数，参数“axis”指定沿着哪个轴进行重复。

repeat函数的格式如下：numpy.repeat(a, repeats, axis=None)

In [24]:
# 设置随机种子
np.random.seed(42)
arr = np.random.randint(0, 10, size=(3,3))
print('创建的数组为：\n', arr)

创建的数组为：
 [[6 3 7]
 [4 6 9]
 [2 6 7]]


In [25]:
# 按行进行元素重复
print('重复后的数组为：\n', arr.repeat(2, axis=0))

重复后的数组为：
 [[6 3 7]
 [6 3 7]
 [4 6 9]
 [4 6 9]
 [2 6 7]
 [2 6 7]]


In [26]:
# 按列进行元素重复
print('重复后的数组为：\n', arr.repeat(2, axis=1))

重复后的数组为：
 [[6 6 3 3 7 7]
 [4 4 6 6 9 9]
 [2 2 6 6 7 7]]


**这两个函数的主要区别在于，tile函数是对数组进行重复操作，repeat函数是对数组中的每个元素进行重复操作。**

常用统计函数

In [27]:
arr = np.arange(20).reshape(4, 5)
print('创建的数组为：\n', arr)

创建的数组为：
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [28]:
print('数组的和为：', np.sum(arr))

数组的和为： 190


In [29]:
print('数组的纵轴和为：', np.sum(arr, axis=0))

数组的纵轴和为： [30 34 38 42 46]


In [30]:
print('数组的横轴和为：', np.sum(arr, axis=1))

数组的横轴和为： [10 35 60 85]


In [31]:
print('数组的均值为：', np.mean(arr))

数组的均值为： 9.5


In [32]:
print('数组的纵轴均值为：', np.mean(arr, axis=0))

数组的纵轴均值为： [ 7.5  8.5  9.5 10.5 11.5]


In [33]:
print('数组的横轴均值为：', np.mean(arr, axis=1))

数组的横轴均值为： [ 2.  7. 12. 17.]


In [34]:
print('数组的标准差为：', np.std(arr))

数组的标准差为： 5.766281297335398


In [35]:
print('数组的方差为：', np.var(arr))

数组的方差为： 33.25


In [36]:
print('数组的最小值为：',np.min(arr))

数组的最小值为： 0


In [37]:
print('数组的最大值为：', np.max(arr))

数组的最大值为： 19


In [38]:
print('数组最小元素的索引是：', np.argmin(arr))

数组最小元素的索引是： 0


In [39]:
print('数组最大元素的索引是：', np.argmax(arr))

数组最大元素的索引是： 19


在 NumPy中，cumsum 函数和 cumprod 函数采用不聚合计算，产生一个由中间结果组成的数组。

In [41]:
arr = np.arange(2, 10)
print('创建的数组为：', arr)

创建的数组为： [2 3 4 5 6 7 8 9]


读取 iris 数据集中的花萼长度数据（已保存为 CSV 格式），并对其进行统计分析。

In [42]:
# 读取文件内的数据
iris_sepal_length = np.loadtxt('./data/iris_sepal_length.csv', delimiter=',')
print('花萼长度表为：\n', iris_sepal_length)

花萼长度表为： [5.1 4.9 4.7 4.6 5.  5.4 4.6 5.  4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1
 5.7 5.1 5.4 5.1 4.6 5.1 4.8 5.  5.  5.2 5.2 4.7 4.8 5.4 5.2 5.5 4.9 5.
 5.5 4.9 4.4 5.1 5.  4.5 4.4 5.  5.1 4.8 5.1 4.6 5.3 5.  7.  6.4 6.9 5.5
 6.5 5.7 6.3 4.9 6.6 5.2 5.  5.9 6.  6.1 5.6 6.7 5.6 5.8 6.2 5.6 5.9 6.1
 6.3 6.1 6.4 6.6 6.8 6.7 6.  5.7 5.5 5.5 5.8 6.  5.4 6.  6.7 6.3 5.6 5.5
 5.5 6.1 5.8 5.  5.6 5.7 5.7 6.2 5.1 5.7 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3
 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5 7.7 7.7 6.  6.9 5.6 7.7 6.3 6.7 7.2
 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.  6.9 6.7 6.9 5.8 6.8
 6.7 6.7 6.3 6.5 6.2 5.9]


In [43]:
# 对数据进行排序
iris_sepal_length.sort()
print('排序后的花萼长度表为：\n', iris_sepal_length)

排序后的花萼长度表为：
 [4.3 4.4 4.4 4.4 4.5 4.6 4.6 4.6 4.6 4.7 4.7 4.8 4.8 4.8 4.8 4.8 4.9 4.9
 4.9 4.9 4.9 4.9 5.  5.  5.  5.  5.  5.  5.  5.  5.  5.  5.1 5.1 5.1 5.1
 5.1 5.1 5.1 5.1 5.1 5.2 5.2 5.2 5.2 5.3 5.4 5.4 5.4 5.4 5.4 5.4 5.5 5.5
 5.5 5.5 5.5 5.5 5.5 5.6 5.6 5.6 5.6 5.6 5.6 5.7 5.7 5.7 5.7 5.7 5.7 5.7
 5.7 5.8 5.8 5.8 5.8 5.8 5.8 5.8 5.9 5.9 5.9 6.  6.  6.  6.  6.  6.  6.1
 6.1 6.1 6.1 6.1 6.1 6.2 6.2 6.2 6.2 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3
 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.7 6.7 6.7 6.7
 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.9 6.9 6.9 6.9 7.  7.1 7.2 7.2 7.2 7.3 7.4
 7.6 7.7 7.7 7.7 7.7 7.9]


In [44]:
# 去除重复值
print('去重后的花萼长度表为：\n', np.unique(iris_sepal_length))

去重后的花萼长度表为：
 [4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.
 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.6 7.7 7.9]


In [46]:
# 计算数组的总和
print('花萼长度表的总和为：', np.sum(iris_sepal_length))

花萼长度表的总和为： 876.5


In [48]:
# 计算所有元素的累计和
print('花萼长度表的累计和为：\n', np.cumsum(iris_sepal_length))

花萼长度表的累计和为：
 [  4.3   8.7  13.1  17.5  22.   26.6  31.2  35.8  40.4  45.1  49.8  54.6
  59.4  64.2  69.   73.8  78.7  83.6  88.5  93.4  98.3 103.2 108.2 113.2
 118.2 123.2 128.2 133.2 138.2 143.2 148.2 153.2 158.3 163.4 168.5 173.6
 178.7 183.8 188.9 194.  199.1 204.3 209.5 214.7 219.9 225.2 230.6 236.
 241.4 246.8 252.2 257.6 263.1 268.6 274.1 279.6 285.1 290.6 296.1 301.7
 307.3 312.9 318.5 324.1 329.7 335.4 341.1 346.8 352.5 358.2 363.9 369.6
 375.3 381.1 386.9 392.7 398.5 404.3 410.1 415.9 421.8 427.7 433.6 439.6
 445.6 451.6 457.6 463.6 469.6 475.7 481.8 487.9 494.  500.1 506.2 512.4
 518.6 524.8 531.  537.3 543.6 549.9 556.2 562.5 568.8 575.1 581.4 587.7
 594.1 600.5 606.9 613.3 619.7 626.1 632.5 639.  645.5 652.  658.5 665.
 671.6 678.2 684.9 691.6 698.3 705.  711.7 718.4 725.1 731.8 738.6 745.4
 752.2 759.1 766.  772.9 779.8 786.8 793.9 801.1 808.3 815.5 822.8 830.2
 837.8 845.5 853.2 860.9 868.6 876.5]


In [49]:
# 计算均值
print('花萼长度表的均值为：', np.mean(iris_sepal_length))

花萼长度表的均值为： 5.843333333333334


In [50]:
# 计算数组的标准差
print('花萼长度表的标准差为：', np.std(iris_sepal_length))

花萼长度表的标准差为： 0.8253012917851409


In [51]:
# 计算数组的方差
print('花萼长度表的方差为：', np.var(iris_sepal_length))

花萼长度表的方差为： 0.6811222222222223


In [52]:
# 计算花萼长度的最小值
print('花萼长度的最小值为：', np.min(iris_sepal_length))

花萼长度的最小值为： 4.3


In [53]:
# 计算花萼长度的最大值
print('花萼长度的最小值为：', np.max(iris_sepal_length))

花萼长度的最小值为： 7.9
