## 1. numpy数组的构造

In [1]:
# 最一般的情况是通过array来构造
import numpy as np  
np.array([1, 2, 3])

array([1, 2, 3])

In [2]:
# 下边讨论一些特殊的数组生成方式
# 等差序列
np.linspace(1, 5, 11) # 起始，终止，包含样本个数

array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. ])

In [5]:
np.arange(1, 5, 2) # 起始，终止，步长

array([1, 3])

In [6]:
# 特殊矩阵
# 全0矩阵
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [7]:
# 单位矩阵
np.eye(3) # 3 * 3的单位矩阵


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [8]:
np.eye(3, k = 1) # 偏移主对角线一个单位的伪单位矩阵


array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [9]:
# 元组传入大小，10表示填充的数值
np.full((2, 3), 10)

array([[10, 10, 10],
       [10, 10, 10]])

In [10]:
# 每行填入相同的列表
np.full((2, 3), [1, 2, 3])

array([[1, 2, 3],
       [1, 2, 3]])

In [11]:
# 随机矩阵
# 最常用的随机生成函数是rand, randn, randint, choice。分别表示0-1均匀分布的随机数组，标准正太分布的随机数组，随机整数组和随机列别哦抽样
np.random.rand(3) # 生成服从0-1均匀分布的三个随机数

array([0.59916704, 0.85693496, 0.39555077])

In [12]:
np.random.rand(3, 3) # 注意这里传入的不是元组

array([[0.6774987 , 0.70459263, 0.38390556],
       [0.12721548, 0.13416289, 0.08599023],
       [0.09620312, 0.40045786, 0.81091048]])

In [13]:
# 对于服从a到b区间上的均匀分布可以这样生产
a, b = 5, 15
(b - a) * np.random.rand(3) + a

array([ 7.08905706, 14.67654793,  9.97497139])

In [14]:
# 一般情况下，额可以选择已有的库函数
np.random.uniform(5, 15, 3)

array([14.45220719,  7.94881629,  7.92801745])

In [15]:
# randn生成标准正态分布
np.random.randn(3)

array([-0.15480097,  0.20060492, -0.8998591 ])

In [16]:
np.random.randn(2, 2)

array([[-0.41574   ,  0.61055653],
       [-0.26733557, -0.19232403]])

In [17]:
# 服从标准差为σ，均值为μ的一元正态分布：
sigma, mu = 2.5, 3
mu + np.random.randn(3) * sigma

array([-1.30249   ,  4.85523546,  3.96966432])

In [18]:
# 也可以使用现有函数生成
np.random.normal(3, 2.5, 3)

array([3.78941014, 1.5773627 , 1.16138652])

In [19]:
# randint可以指定生成随机数的最小值和最大值（不包含）和维度大小
low, high, size = 5, 15, (2, 2)
np.random.randint(low, high, size)

array([[ 9,  5],
       [13,  7]])

In [21]:
# choice可以从给定的列表中，以一定的概率和方式返回结果 当不指定概率时为均匀采样，默认抽取方式为有放回抽样：
my_list = [1, 2, 3, 4]
np.random.choice(my_list, 2, replace = False, p = [0.1, 0.7, 0.1, 0.1])

array([4, 2])

In [22]:
np.random.choice(my_list, (3, 3))

array([[3, 2, 1],
       [4, 3, 4],
       [4, 2, 2]])

In [23]:
# 当返回的元素个数与原列表相同时，不放回抽样等价于使用 permutation 函数，即打散原列表：
np.random.permutation(my_list)


array([4, 1, 3, 2])

In [24]:
# 随机种子可以固定随机数的输出结果
np.random.seed(0)
np.random.rand()


0.5488135039273248

In [25]:
np.random.seed(0)
np.random.rand()

0.5488135039273248

## 2. np数组的变形与合并

In [26]:
# 转置操作
np.zeros((2, 3)).T

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [27]:
# 合并操作
# 对于二维数组而言， r_ 和 c_ 分别表示上下合并和左右合并：
# r表示row，表示在行上拼接，c表示column，表示在列上拼接
np.r_[np.zeros((2,3)),np.zeros((2,3))]


array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [28]:
np.c_[np.zeros((2,3)),np.zeros((2,3))]  

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [30]:
# 一维数组和二维数组进行合并时，应当把其视作列向量，在长度匹配的情况下只能够使用左右合并的 c_ 操作：
try:
    np.r_[np.array([0, 0]), np.zeros((2, 1))]
except Exception as e:
    Err_msg = e

Err_msg

ValueError('all the input arrays must have same number of dimensions, but the array at index 0 has 1 dimension(s) and the array at index 1 has 2 dimension(s)')

In [31]:
np.r_[np.array([0,0]),np.zeros(2)]

array([0., 0., 0., 0.])

In [32]:
np.c_[np.array([0,0]),np.zeros((2,3))]

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [33]:
# 维度变化reshape
# reshape 能够帮助用户把原数组按照新的维度重新排列。
# 在使用时有两种模式，分别为 C 模式和 F 模式，分别以逐行和逐列的顺序进行填充读取。
target = np.arange(8).reshape(2,4)


In [34]:
target

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [35]:
target.reshape((4,2), order='C') # 按照行读取和填充


array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [36]:
target.reshape((4,2), order='F') # 按照列读取和填充


array([[0, 2],
       [4, 6],
       [1, 3],
       [5, 7]])

In [37]:
# 特别地，由于被调用数组的大小是确定的， reshape 允许有一个维度存在空缺，此时只需填充-1即可：
target.reshape((4,-1))




array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [39]:
# 将n*1的数组转为1维是很常使用的
target = np.ones((3,1))
target.reshape(-1)

array([1., 1., 1.])

In [40]:
## np数组的切片和索引
target = np.arange(9).reshape(3,3)
target[:-1, [0,2]]


array([[0, 2],
       [3, 5]])

In [42]:
# 此外，还可以利用 np.ix_ 在对应的维度上使用布尔索引，但此时不能使用 slice 切片：
target[np.ix_([True, False, True], [True, False, True])]


array([[0, 2],
       [6, 8]])

In [43]:
target[np.ix_([1,2], [True, False, True])]


array([[3, 5],
       [6, 8]])

In [44]:
# 数组为1维的时候，直接进行布尔索引，不许np.ix_
new = target.reshape(-1)
new[new % 2 == 0]

array([0, 2, 4, 6, 8])

## 常用函数
为了简单起见，这里假设下述函数输入的数组都是一维的。



In [45]:
# where
a = np.array([-1,1,-1,0])
np.where(a>0, a, 5) # 对应位置为True时填充a对应元素，否则填充5


array([5, 1, 5, 5])

In [46]:
#  nonzero, argmax, argmin
# 这三个函数返回的都是索引， nonzero 返回非零数的索引， argmax, argmin 分别返回最大和最小数的索引：
a = np.array([-2,-5,0,1,3,-1])
np.nonzero(a)


(array([0, 1, 3, 4, 5], dtype=int64),)

In [47]:
a.argmax()


4

In [48]:
a.argmin()

1

In [49]:
# any, all

# any 指当序列至少 存在一个 True 或非零元素时返回 True ，否则返回 False

# all 指当序列元素 全为 True 或非零元素时返回 True ，否则返回 False
a = np.array([0,1])
a.any()



True

In [50]:
a.all()

False

In [53]:
# cumprod, cumsum 分别表示累乘和累加函数，返回同长度的数组， diff 表示和前一个元素做差，由于第一个元素为缺失值，因此在默认参数情况下，返回长度是原数组减1


a = np.array([1, 2, 3])
a.cumprod()


array([1, 2, 6], dtype=int32)

In [54]:
a.cumsum()


array([1, 3, 6], dtype=int32)

In [55]:
np.diff(a)


array([1, 1])

In [57]:
# 常用的统计函数包括 max, min, mean, median, std, var, sum, quantile ，
# 其中分位数计算是全局方法，因此不能通过 array.quantile 的方法调用：
target = np.arange(5)
target.max()


4

In [58]:
np.quantile(target, 0.5) # 0.5分位数


2.0

In [59]:
# 但是对于含有缺失值的数组，它们返回的结果也是缺失值，如果需要略过缺失值
# ，必须使用 nan* 类型的函数，上述的几个统计函数都有对应的 nan* 函数。
target = np.array([1, 2, np.nan])
target.max()



nan

In [60]:
np.nanmax(target)


2.0

In [61]:
np.nanquantile(target, 0.5)


1.5