# 用NumPy进行简单统计分析

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import scipy as sp

## 1 文件读写操作

常用的存储文件的格式有文本文件、CSV格式文件、二进制格式文件和多维数据文件等。其中CSV（Comma-Separated Value，逗号分隔值）格式是一种常见的文件格式。通常，数据库的转存文件就是CSV格式的，文件中的各个字段对应于数据库表中的列，

### 1.1 使用NumPy读写文本文件

In [2]:
# 将一维或二维数组写入txt或csv文件
# 设置随机数种子
np.random.seed(2023)
array = np.random.rand(10, 2) # 生成10行2列的随机数
print(array)
fname = 'test.txt'
np.savetxt(fname, array,
           fmt='%.3e', delimiter=' ',
           newline='\n', header='随机数',
           footer='结束', comments='# ',
           encoding=None)
# 参数说明
# fname: 文件名
# array: 数组名
# fmt: 格式
# delimiter: 分隔符
#  newline: 换行符
# header: 文件头
# footer: 文件尾
# comments: 注释符
# encoding: 编码

del array, fname

[[0.3219883  0.89042245]
 [0.58805226 0.12659609]
 [0.14134122 0.46789559]
 [0.02208966 0.72727471]
 [0.52438734 0.54493524]
 [0.45637326 0.50138226]
 [0.39446855 0.1511723 ]
 [0.36087518 0.16207701]
 [0.33795869 0.18032328]
 [0.3909914  0.03564821]]


In [3]:
# 读取txt或csv文件
# 在numpy中，loadtxt()函数可以读取txt或csv文件
fname = 'test.txt'
array = np.loadtxt(fname, dtype=np.float64,
                 delimiter=' ', skiprows=0,
                usecols=None, unpack=False,
                ndmin=0, encoding='bytes')
print(array)
# 参数说明
# fname: 文件名
# dtype: 数据类型
# delimiter: 分隔符
# skiprows: 跳过前几行
# usecols: 读取指定列
# unpack: 是否转置
# ndmin: 最小维度
# encoding: 编码

del fname, array

[[0.322   0.8904 ]
 [0.5881  0.1266 ]
 [0.1413  0.4679 ]
 [0.02209 0.7273 ]
 [0.5244  0.5449 ]
 [0.4564  0.5014 ]
 [0.3945  0.1512 ]
 [0.3609  0.1621 ]
 [0.338   0.1803 ]
 [0.391   0.03565]]


### 1.2 使用NumPy读写二进制格式文件

In [4]:
# 使用save()或load()函数保存或读取二进制文件
np.random.seed(2023)
array = np.random.rand(10, 2)
print(array)
filename1 = 'test.npy'
filename2 = 'test.npz'
np.save(filename1, array)
np.savez(filename2, array)
del array, filename1, filename2

[[0.3219883  0.89042245]
 [0.58805226 0.12659609]
 [0.14134122 0.46789559]
 [0.02208966 0.72727471]
 [0.52438734 0.54493524]
 [0.45637326 0.50138226]
 [0.39446855 0.1511723 ]
 [0.36087518 0.16207701]
 [0.33795869 0.18032328]
 [0.3909914  0.03564821]]


In [5]:
np.load('test.npy')

array([[0.3219883 , 0.89042245],
       [0.58805226, 0.12659609],
       [0.14134122, 0.46789559],
       [0.02208966, 0.72727471],
       [0.52438734, 0.54493524],
       [0.45637326, 0.50138226],
       [0.39446855, 0.1511723 ],
       [0.36087518, 0.16207701],
       [0.33795869, 0.18032328],
       [0.3909914 , 0.03564821]])

In [6]:
np.load('test.npz')['arr_0']

array([[0.3219883 , 0.89042245],
       [0.58805226, 0.12659609],
       [0.14134122, 0.46789559],
       [0.02208966, 0.72727471],
       [0.52438734, 0.54493524],
       [0.45637326, 0.50138226],
       [0.39446855, 0.1511723 ],
       [0.36087518, 0.16207701],
       [0.33795869, 0.18032328],
       [0.3909914 , 0.03564821]])

### 1.3 使用NumPy读写多维数据文件

In [7]:
# 使用tofile()或fromfile()函数保存或读取二进制文件
# 1. tofile()函数
np.random.seed(2023)
array = np.random.rand(10, 2)
print(array)
filename = 'test.bin'
array.tofile(filename, sep='', format='%f')
# 参数说明
# filename: 文件名
# sep: 分隔符
# format: 格式
# 2. fromfile()函数
np.fromfile('test.bin', dtype=np.float64)
# 参数说明
# filename: 文件名
# dtype: 数据类型
# count: 读取元素个数
# sep: 分隔符
del array, filename

[[0.3219883  0.89042245]
 [0.58805226 0.12659609]
 [0.14134122 0.46789559]
 [0.02208966 0.72727471]
 [0.52438734 0.54493524]
 [0.45637326 0.50138226]
 [0.39446855 0.1511723 ]
 [0.36087518 0.16207701]
 [0.33795869 0.18032328]
 [0.3909914  0.03564821]]


## 2 NumPy常用的统计函数

In [8]:
# 求最大值、最小值、均值、方差、标准差
np.random.seed(2023)
array = np.random.rand(10, 5)

print('求每一列的最大值\n',np.max(array, axis=0))
print('求每一行的最大值\n',np.max(array, axis=1))
print('求每一列的最小值\n',np.min(array, axis=0))
print('求每一行的最小值\n',np.min(array, axis=1))
print('求每一列的均值\n',np.mean(array, axis=0))
print('求每一行的均值\n',np.mean(array, axis=1))
print('求每一列的方差\n',np.var(array, axis=0))
print('求每一行的方差\n',np.var(array, axis=1))
print('求每一列的标准差\n',np.std(array, axis=0))
print('求每一行的标准差\n',np.std(array, axis=1))
del array

求每一列的最大值
 [0.98055723 0.89042245 0.72727471 0.81971076 0.93053196]
求每一行的最大值
 [0.89042245 0.72727471 0.50138226 0.3909914  0.56486165 0.93053196
 0.8103383  0.98055723 0.62552644 0.97228343]
求每一列的最小值
 [0.10395184 0.02208966 0.10980113 0.12659609 0.03564821]
求每一行的最小值
 [0.12659609 0.02208966 0.1511723  0.03564821 0.18405414 0.10395184
 0.59670056 0.10980113 0.07876025 0.21822526]
求每一列的均值
 [0.50516427 0.48828259 0.43881736 0.48483822 0.36123227]
求每一行的均值
 [0.41368007 0.45731651 0.37285431 0.22139972 0.3299091  0.41276006
 0.74591679 0.62049345 0.38498506 0.59735433]
求每一列的方差
 [0.08881633 0.07338077 0.04735805 0.05309602 0.08484109]
求每一行的方差
 [0.0845364  0.05491746 0.01464969 0.01641148 0.01894572 0.08268886
 0.00586495 0.1195769  0.03913684 0.06774459]
求每一列的标准差
 [0.29802069 0.27088885 0.21761905 0.23042573 0.29127494]
求每一行的标准差
 [0.29075144 0.23434474 0.12103589 0.12810731 0.13764345 0.28755671
 0.07658298 0.34579893 0.19783034 0.26027791]


In [9]:
# ptp()函数
# ptp()函数用于计算数组沿指定轴的范围（最大值 - 最小值）
np.random.seed(2023)
array = np.random.rand(10, 5)
print(np.ptp(array, axis=0))
del array

[0.87660539 0.86833279 0.61747359 0.69311467 0.89488375]


In [10]:
# 百分位数
# percentile()函数用于计算数组a沿指定轴的第q个百分位数
np.random.seed(2023)
array = np.random.rand(10, 5)
print('求每一列的25%、50%、75%分位数\n',np.percentile(array, q=[25,50,75], axis=0))

# 中位数
print('求每一列的中位数\n',np.median(array, axis=0))
del array

求每一列的25%、50%、75%分位数
 [[0.27661808 0.35489991 0.22704899 0.37705419 0.15201945]
 [0.46213443 0.43311914 0.47394447 0.45768937 0.26291908]
 [0.7113352  0.70341874 0.59453848 0.65384722 0.49892022]]
求每一列的中位数
 [0.46213443 0.43311914 0.47394447 0.45768937 0.26291908]


In [11]:
# 求和与加权平均值,算数平均值
np.random.seed(2023)
array = np.random.rand(10, 5)
print(array)
print('求每一列的和\n',np.sum(array, axis=0))
print('加权平均值\n',np.average(array, axis=0,weights=[1,1,1,1,1,1,1,1,1,1]))
print('算数平均值\n',np.mean(array, axis=0)) 
del array

[[0.3219883  0.89042245 0.58805226 0.12659609 0.14134122]
 [0.46789559 0.02208966 0.72727471 0.52438734 0.54493524]
 [0.45637326 0.50138226 0.39446855 0.1511723  0.36087518]
 [0.16207701 0.33795869 0.18032328 0.3909914  0.03564821]
 [0.56486165 0.20346149 0.32060446 0.37656378 0.18405414]
 [0.10395184 0.45492722 0.19586384 0.37852542 0.93053196]
 [0.76015971 0.77076424 0.59670056 0.79162115 0.8103383 ]
 [0.98055723 0.88478525 0.10980113 0.81971076 0.30761289]
 [0.26149467 0.40572354 0.55342038 0.62552644 0.07876025]
 [0.97228343 0.41131105 0.7216644  0.66328748 0.21822526]]
求每一列的和
 [5.05164268 4.88282588 4.38817356 4.84838217 3.61232266]
加权平均值
 [0.50516427 0.48828259 0.43881736 0.48483822 0.36123227]
算数平均值
 [0.50516427 0.48828259 0.43881736 0.48483822 0.36123227]


## 3 使用NumPy函数进行统计分析

### 3.1 NumPy的排序函数

In [12]:
# sort()函数
np.random.seed(2023)
array = np.random.rand(10, 5)
print(array)
print('对每一列进行排序\n',np.sort(array, axis=0, kind='quicksort', order=None))
print('对每一行进行排序\n',np.sort(array, axis=1, kind='quicksort', order=None))
# 参数说明
# axis: 沿着哪个轴排序
# kind: 排序算法
# order: 如果数组包含字段，则是要排序的字段

[[0.3219883  0.89042245 0.58805226 0.12659609 0.14134122]
 [0.46789559 0.02208966 0.72727471 0.52438734 0.54493524]
 [0.45637326 0.50138226 0.39446855 0.1511723  0.36087518]
 [0.16207701 0.33795869 0.18032328 0.3909914  0.03564821]
 [0.56486165 0.20346149 0.32060446 0.37656378 0.18405414]
 [0.10395184 0.45492722 0.19586384 0.37852542 0.93053196]
 [0.76015971 0.77076424 0.59670056 0.79162115 0.8103383 ]
 [0.98055723 0.88478525 0.10980113 0.81971076 0.30761289]
 [0.26149467 0.40572354 0.55342038 0.62552644 0.07876025]
 [0.97228343 0.41131105 0.7216644  0.66328748 0.21822526]]
对每一列进行排序
 [[0.10395184 0.02208966 0.10980113 0.12659609 0.03564821]
 [0.16207701 0.20346149 0.18032328 0.1511723  0.07876025]
 [0.26149467 0.33795869 0.19586384 0.37656378 0.14134122]
 [0.3219883  0.40572354 0.32060446 0.37852542 0.18405414]
 [0.45637326 0.41131105 0.39446855 0.3909914  0.21822526]
 [0.46789559 0.45492722 0.55342038 0.52438734 0.30761289]
 [0.56486165 0.50138226 0.58805226 0.62552644 0.36087518]
 [0

In [13]:
# argsort()函数
print('对每一列进行排序\n',np.argsort(array, axis=0, kind='quicksort', order=None))
# 用途：返回数组值从小到大的索引值
del array

对每一列进行排序
 [[5 1 7 0 3]
 [3 4 3 2 8]
 [8 3 5 4 0]
 [0 8 4 5 4]
 [2 9 2 3 9]
 [1 5 8 1 7]
 [4 2 0 8 2]
 [6 6 6 9 1]
 [9 7 9 6 6]
 [7 0 1 7 5]]


In [14]:
# lexsort()函数
# lexsort()函数用于对多个序列进行排序。把它想象成对电子表格进行排序，每一列代表一个序列，排序时优先照顾靠后的列。
# 用途：返回数组值从小到大的索引值
k =  ('name','age','tel')
v =  ('李明',  '21',  '13871234456')
ind = np.lexsort((k,v))
print  ('调用lexsort() 函数：',ind)
print  ('使用这个索引来获取排序后的数据：')
print  ([k[i]  +  ", "  + v[i]  for i in ind])
del k, v, ind

调用lexsort() 函数： [2 1 0]
使用这个索引来获取排序后的数据：
['tel, 13871234456', 'age, 21', 'name, 李明']


###  3.2 NumPy的去重与重复函数

In [15]:
# unique()函数
np.random.seed(2023)
array = np.random.randint(1, 6, 10)
print(array)
print('去重后的数组\n', np.unique(array))
del array

[2 2 5 4 5 5 1 2 1 3]
去重后的数组
 [1 2 3 4 5]


In [16]:
# tile()函数
array = np.array([[1,2],[3,4]])
print(array)
print('沿x轴复制一次\n',np.tile(array, reps=(2,1)))
print('沿y轴复制一次\n',np.tile(array, reps=(1,2)))
# 参数说明
# reps: 沿各个轴的复制倍数 
print('沿x&y轴复制一次\n',np.tile(array, reps=(2,2)))
del array

[[1 2]
 [3 4]]
沿x轴复制一次
 [[1 2]
 [3 4]
 [1 2]
 [3 4]]
沿y轴复制一次
 [[1 2 1 2]
 [3 4 3 4]]
沿x&y轴复制一次
 [[1 2 1 2]
 [3 4 3 4]
 [1 2 1 2]
 [3 4 3 4]]


In [17]:
# repeat()函数
array = np.array([[1,2],[3,4]])
print(array)
print('沿x轴复制一次\n',np.repeat(array, repeats=2, axis=0))
print('沿y轴复制一次\n',np.repeat(array, repeats=2, axis=1))

[[1 2]
 [3 4]]
沿x轴复制一次
 [[1 2]
 [1 2]
 [3 4]
 [3 4]]
沿y轴复制一次
 [[1 1 2 2]
 [3 3 4 4]]


### 3.3 NnumPy的搜索和计数函数

In [18]:
# argmin(),nanargmin(),argmax(),nanargmax()函数
np.random.seed(2023)
array = np.random.randint(0, 10, (10,5))
print(array)
print('每一列最小值的索引\n',np.argmin(array, axis=0))
print('每一行最小值的索引\n',np.argmin(array, axis=1))
print('每一列最大值的索引\n',np.argmax(array, axis=0))
print('每一行最大值的索引\n',np.argmax(array, axis=1))
print('每一列最小值的索引\n',np.nanargmin(array, axis=0))
print('每一行最小值的索引\n',np.nanargmin(array, axis=1))
print('每一列最大值的索引\n',np.nanargmax(array, axis=0))
print('每一行最大值的索引\n',np.nanargmax(array, axis=1))

[[7 9 6 7 1]
 [3 4 4 6 5]
 [0 6 1 5 7]
 [5 8 2 3 1]
 [0 7 1 0 0]
 [1 8 1 2 1]
 [0 1 5 6 4]
 [6 8 8 4 1]
 [7 6 5 7 4]
 [9 2 1 0 6]]
每一列最小值的索引
 [2 6 2 4 4]
每一行最小值的索引
 [4 0 0 4 0 0 0 4 4 3]
每一列最大值的索引
 [9 0 7 0 2]
每一行最大值的索引
 [1 3 4 1 1 1 3 1 0 0]
每一列最小值的索引
 [2 6 2 4 4]
每一行最小值的索引
 [4 0 0 4 0 0 0 4 4 3]
每一列最大值的索引
 [9 0 7 0 2]
每一行最大值的索引
 [1 3 4 1 1 1 3 1 0 0]


In [19]:
# nonzero()函数
print('非零元素的索引\n', np.nonzero(array))

非零元素的索引
 (array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 5,
       5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9],
      dtype=int64), array([0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 1, 2, 3, 4, 0, 1, 2, 3, 4, 1, 2, 0,
       1, 2, 3, 4, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 4],
      dtype=int64))


In [20]:
# where()函数
print('大于5的元素索引\n', np.where(array > 5))
print('大于5的元素\n', array[np.where(array > 5)])
print('大于5的元素\n', array[array > 5])

大于5的元素索引
 (array([0, 0, 0, 0, 1, 2, 2, 3, 4, 5, 6, 7, 7, 7, 8, 8, 8, 9, 9],
      dtype=int64), array([0, 1, 2, 3, 3, 1, 4, 1, 1, 1, 3, 0, 1, 2, 0, 1, 3, 0, 4],
      dtype=int64))
大于5的元素
 [7 9 6 7 6 6 7 8 7 8 6 6 8 8 7 6 7 9 6]
大于5的元素
 [7 9 6 7 6 6 7 8 7 8 6 6 8 8 7 6 7 9 6]


In [21]:
# extract()函数
# extract()函数返回满足任何条件的元素
# 用途：返回满足任何条件的元素
print('大于5的元素\n',np.extract(array>5, array))

大于5的元素
 [7 9 6 7 6 6 7 8 7 8 6 6 8 8 7 6 7 9 6]


In [22]:
# count_nonzero()函数
print('非零元素的个数\n', np.count_nonzero(array))
del array

非零元素的个数
 44
