In [1]:
import numpy as np

#### 特殊矩阵

- 单位矩阵：主对角线上的数字为1，其他的数字为0

In [2]:
arr = np.eye(3, 4, dtype=int)
print(arr)

[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]]


- 对角矩阵：主对角线上非零的0，其他的数字为0

In [3]:
arr = np.diag([5, 1, 2, 3])
print(arr)

[[5 0 0 0]
 [0 1 0 0]
 [0 0 2 0]
 [0 0 0 3]]


#### 均匀分布随机数 (np.random.rand)
- 返回给定形状的数组，用 [0, 1) 上均匀分布的随机样本填充
- 生成0到1之间的随机浮点数（均匀分布）

In [4]:
arr = np.random.rand(2, 3)
print(arr)

[[0.32727547 0.68271002 0.84125027]
 [0.04892638 0.76751555 0.81498643]]


- 生成指定范围区间的随机浮点数

In [5]:
arr = np.random.uniform(3, 6, (2, 3))
print(arr)

[[3.50236009 4.78128688 4.30972729]
 [5.86057968 3.13772002 3.34183653]]


#### 正态分布随机数 (np.random.randn)
- 返回给定形状的数组，用标准正态分布(均值为0，标准差为1)的随机样本填充。
- 两边小，中间大

In [6]:
arr = np.random.randn(2, 3)
print(arr)

[[ 2.49745581  1.11323092 -0.0030891 ]
 [-1.79448934 -1.26144566 -0.84182996]]


In [7]:
arr = np.array([1, 2, 3], dtype='i8')
print(arr)

[1 2 3]


#### np.nonzero(arr_like)
返回非零元素的索引

In [8]:
lst = [[[0, 0, 8],
        [0, 0, 0]],
       [[0, 0, 0],
        [3, 0, 0]],
       [[0, 6, 1],
        [0, 0, 0]],
       [[9, 0, 0],
        [0, 0, 0]]]
arr = np.array(lst)
'''
8: 0 0 2
3: 1 1 0
6: 2 0 1
1: 2 0 2
9: 3 0 0
'''
print(np.nonzero(arr))
print([np.nonzero(arr)])
print(arr[np.nonzero(arr)])

(array([0, 1, 2, 2, 3], dtype=int64), array([0, 1, 0, 0, 0], dtype=int64), array([2, 0, 1, 2, 0], dtype=int64))
[(array([0, 1, 2, 2, 3], dtype=int64), array([0, 1, 0, 0, 0], dtype=int64), array([2, 0, 1, 2, 0], dtype=int64))]
[8 3 6 1 9]


In [9]:
print(arr > 5)
print(np.nonzero(arr > 5))
print(arr[np.nonzero(arr > 5)])

[[[False False  True]
  [False False False]]

 [[False False False]
  [False False False]]

 [[False  True False]
  [False False False]]

 [[ True False False]
  [False False False]]]
(array([0, 2, 3], dtype=int64), array([0, 0, 0], dtype=int64), array([2, 1, 0], dtype=int64))
[8 6 9]


#### np.where(condition, x=None, y=None)
- condition : array_like, bool
- x, y：array_like，要么都传参，要么都不传
- 如果传三个参数，条件成立返回x，不成立时返回y
- 如果只传第一个参数，返回符合条件的元素的索引

In [10]:
print(arr != 0)
print(np.where(arr != 0))

[[[False False  True]
  [False False False]]

 [[False False False]
  [ True False False]]

 [[False  True  True]
  [False False False]]

 [[ True False False]
  [False False False]]]
(array([0, 1, 2, 2, 3], dtype=int64), array([0, 1, 0, 0, 0], dtype=int64), array([2, 0, 1, 2, 0], dtype=int64))


#### 如果只传第一个参数，返回符合条件的元素的索引

In [11]:
print(arr[np.nonzero(arr)])
print(arr[np.where(arr != 0)])
print(arr[np.nonzero(arr > 5)])
print(arr[np.where(arr > 5)])

[8 3 6 1 9]
[8 3 6 1 9]
[8 6 9]
[8 6 9]


#### 当where内有三个参数时，当condition成立时返回x，当condition不成立时返回y

In [12]:
# shape:(2,3)
cond = [[False, True, False],
        [True, False, False]]
# shape:(3,)->(2,3)
x = [1, 2, 3]
# shape:(1,3)->(2,3)
y = [[4, 5, 6]]
print(np.where(cond, x, y))

[[4 2 6]
 [1 5 6]]


#### np.argwhere(arr_like)
- 找出数组中按元素分组的非零元素的索引

In [13]:
lst = [[[0, 0, 8],
        [0, 0, 0]],
       [[0, 0, 0],
        [3, 0, 0]],
       [[0, 6, 1],
        [0, 0, 0]],
       [[9, 0, 0],
        [0, 0, 0]]]
arr = np.array(lst)
print(arr[np.nonzero(arr)])
print(np.argwhere(arr))

[8 3 6 1 9]
[[0 0 2]
 [1 1 0]
 [2 0 1]
 [2 0 2]
 [3 0 0]]


#### np.random.normal(loc=0.0, scale=1.0, size=None)
- 返回从正态分布中抽取的随机样本
- 正态分布又称为常态分布或高斯分布，通常记作X~N（μ ,σ**2）。其中， μ是正态分布的数学期望（均值）， σ2是正态分布的方差。μ = 0,σ = 1的正态分布被称为标准正态分布
- loc：均值（中心）
- scale：标准差
- size：输出的形状

In [14]:
print(np.random.normal())
print(np.random.normal(size=(2, 3, 4)))

0.3349694136366709
[[[ 0.02327301  0.70216582 -1.1571219  -0.09184747]
  [ 0.87434196  1.18684238  1.1439867   0.17125924]
  [ 2.40070593 -0.69132838  0.41322654 -1.10226443]]

 [[-0.0438386  -0.44921684  0.50067214  0.80427636]
  [-1.03476636 -0.01287659 -0.37466309  0.2850581 ]
  [-0.23197312 -1.58925692 -1.11830746  1.58433864]]]


In [15]:
print(np.random.normal(loc=10))
np.random.normal(loc=10, size=(2, 3, 4))

10.487523433326077


array([[[10.8242457 , 10.41717729, 10.9472624 , 10.14781163],
        [10.45420616, 10.50589315,  8.70442696,  8.9805497 ],
        [ 8.79387209, 10.36171115, 10.58012014,  8.36008123]],

       [[11.5428127 ,  9.42907102,  8.77241764,  8.31552091],
        [ 9.69943929,  9.4035199 ,  9.34797111, 11.2632112 ],
        [ 8.37415054,  9.71821675, 10.17738995, 10.031495  ]]])

In [16]:
print(np.random.normal(loc=10, scale=5))
np.random.normal(loc=10, scale=5, size=(2, 3, 4))

13.256802484251898


array([[[15.33128232, 21.87524752, 11.36453318, 10.97931349],
        [ 6.15400064, 15.85091557, 11.97988615,  9.91159541],
        [ 7.55787234,  8.30226346, 13.02144195, 16.27405492]],

       [[16.22487112,  1.45960665,  3.15158514, 17.29293651],
        [ 0.3784963 ,  5.06728465, 14.3459202 ,  8.3488736 ],
        [ 5.77444066, 15.7102088 ,  1.00500061,  1.87047955]]])

#### np.random.randint(low, high=None, size=None)
- 返回从 [low, high) 离散均匀分布中抽取的随机整数

In [17]:
print(np.random.randint(2))
print(np.random.randint(2, size=5))  # 等价于下一行
print(np.random.randint(0, 2, size=5))  # 等价于上一行
print(np.random.randint(2, 8, size=(2, 3)))

0
[1 0 0 1 0]
[1 1 1 0 1]
[[6 3 2]
 [5 2 4]]


#### np.random.uniform(low=0.0, high=1.0, size=None)
- 返回从 [low, high) 均匀分布中抽取的随机样本

In [18]:
print(np.random.uniform(8))
print(np.random.uniform(3.5, size=5))  # 等价于下一行
print(np.random.uniform(0, 3.5, size=5))  # 等价于上一行
print(np.random.uniform(2.5, 3.5, size=(2, 3, 4)))

7.484339995690678
[1.15321255 1.74082907 1.85435661 1.75644077 2.25710749]
[1.6643039  0.32465486 1.54825858 1.49276891 2.01811286]
[[[2.8930876  3.32050094 2.99156752 2.89227587]
  [2.5086648  3.42737661 2.60364008 3.2621858 ]
  [2.93387854 3.01350204 2.56218129 3.19007487]]

 [[2.77090237 3.44488686 3.35706471 2.67033284]
  [3.1862644  2.74644129 3.18708296 3.43488832]
  [3.47463672 3.29075726 3.04209643 3.45446966]]]


#### np.random.permutation(x)
- x：int or array_like
- 如果 x 是整数，返回随机排列的 np.arange(x)
- 如果 x 是数组，只对数组的第一个维度随机排列，返回新的数组

In [19]:
print(np.arange(9))
# 等价于返回一个随机排列的np.arange(9)
print(np.random.permutation(9))

[0 1 2 3 4 5 6 7 8]
[3 6 1 4 0 2 7 5 8]


In [20]:
arr = np.arange(24).reshape(4, 2, 3)
print(arr)
print('*' * 30)
print(np.random.permutation(arr))

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]]]
******************************
[[[18 19 20]
  [21 22 23]]

 [[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]]]


#### np.random.seed([x])
- np.random.seed 是 NumPy 中用于设置**随机数生成器种子**的函数，目的是确保程序的随机操作可以重复生成相同的结果（即保证随机结果的确定性）。这在实验复现、调试和教学场景中非常有用。
- 种子的一致性：
- - 相同种子生成的随机数序列完全一致。
- - 不同种子（如 np.random.seed(0) 和 np.random.seed(1)）会产生不同序列。
- 作用范围：
- - 种子对后续所有基于 NumPy 的随机函数生效（如 np.random.rand(), np.random.normal(), np.random.shuffle() 等）。
-通过控制种子，你能在“随机”和“可复现”之间灵活切换！

In [21]:
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))
np.random.seed(5)
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))

[[51]
 [55]]
2.102604253294989
[[58]
 [86]]
2.222180350600639
[[79]
 [62]]
1.9134383106788528


In [22]:
np.random.seed(5)
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))

[[79]
 [62]]
1.9134383106788528


In [23]:
np.random.seed(3)
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))

[[25]
 [ 4]]
2.081809477825889


In [24]:
# 恢复随机
np.random.seed()
print(np.random.randint(1, 90, size=(2, 1)))
print(np.random.uniform(1.5, 3.5))

[[ 4]
 [29]]
2.7844617187619933


#### 题目 1：温度数据分析
- 题目：某城市一周的最高气温（℃）为 [28, 30, 29, 31, 32, 30, 29]。  
- - 计算平均气温、最高气温和最低气温。  
- - 找出气温超过 30℃ 的天数。  

- 解析：
- - 使用 np.mean() 计算平均值。  
- - 使用 np.max() 和 np.min() 计算极值。  
- - 使用布尔索引 arr[arr > 30] 筛选数据。 

In [25]:
temps = np.array([28, 30, 29, 31, 32, 30, 29])
print("平均气温:", np.mean(temps))  # 29.857
print("最高气温:", np.max(temps))  # 32
print("最低气温:", np.min(temps))  # 28
print("超过30℃的天数:", len(temps[temps > 30]))  # 2
print(np.count_nonzero(temps > 30))
print(np.cumsum(np.where(temps > 30, 1, 0))[-1])

平均气温: 29.857142857142858
最高气温: 32
最低气温: 28
超过30℃的天数: 2
2
2


#### 题目 2：学生成绩统计
- 题目：某班级 5 名学生的数学成绩为 [85, 90, 78, 92, 88]。  
- - 计算成绩的平均分、中位数和标准差。  
- - 将成绩转换为百分制（假设满分为 100）。  

- 解析：
- - 使用 np.mean()、np.median() 和 np.std() 计算统计量。  
- - 百分制无需转换（已经是百分制）。 

In [26]:
scores = np.array([85, 90, 78, 92, 88])
print("平均分:", np.mean(scores))  # 86.6
print("中位数:", np.median(scores))  # 88
print("标准差:", np.std(scores))  # 4.98

平均分: 86.6
中位数: 88.0
标准差: 4.882622246293481


#### 题目 3：矩阵运算
- 题目：给定矩阵 A = [[1, 2], [3, 4]] 和 B = [[5, 6], [7, 8]]。  
- - 计算 A + B 和 A * B（逐元素乘法）。  
- - 计算 A 和 B 的矩阵乘法（点积）。  

- 解析：
- - A + B 和 A * B 是逐元素运算。  
- - 矩阵乘法用 A @ B 或 np.dot(A, B)。 

In [27]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print("A + B:\n", A + B)  # [[6, 8], [10, 12]]
print("A * B:\n", A * B)  # [[5, 12], [21, 32]]
print("A @ B:\n", A @ B)  # [[19, 22], [43, 50]]

A + B:
 [[ 6  8]
 [10 12]]
A * B:
 [[ 5 12]
 [21 32]]
A @ B:
 [[19 22]
 [43 50]]


#### 题目 4：随机数据生成
- 题目：生成一个 (3, 4) 的随机整数数组，范围 [0, 10)。  
- - 计算每列的最大值和每行的最小值。  
- - 将数组中的所有奇数替换为 -1。  

- 解析：
- - 使用 np.random.randint() 生成随机数。  
- - np.max(axis=0) 计算列最大值，np.min(axis=1) 计算行最小值。  
- - 使用布尔索引 arr[arr % 2 == 1] = -1 替换奇数。  

In [28]:
arr = np.random.randint(0, 10, (3, 4))
print("原数组:\n", arr)
print("每列最大值:", np.max(arr, axis=0))
print("每行最小值:", np.min(arr, axis=1))
arr[arr % 2 == 1] = -1  # 奇数替换为-1
print("替换后:\n", arr)

原数组:
 [[6 8 0 7]
 [4 5 5 2]
 [0 7 6 3]]
每列最大值: [6 8 6 7]
每行最小值: [0 2 0]
替换后:
 [[ 6  8  0 -1]
 [ 4 -1 -1  2]
 [ 0 -1  6 -1]]


#### 题目 5：数组变形
- 题目：创建一个 1 到 12 的一维数组，并转换为 (3, 4) 的二维数组。  
- - 计算每行的和与每列的平均值。  
- - 将数组展平为一维数组。  

- 解析：
- - 用 np.arange(1, 13).reshape(3, 4) 创建数组。  
- - np.sum(axis=1) 计算行和，np.mean(axis=0) 计算列均值。  
- - arr.flatten() 展平数组。 

In [29]:
arr = np.arange(1, 13).reshape(3, 4)
print("每行和:", np.sum(arr, axis=1))  # [10, 26, 42]
print("每列均值:", np.mean(arr, axis=0))  # [5, 6, 7, 8]
print("展平后:", arr.flatten())  # [1, 2, ..., 12]

每行和: [10 26 42]
每列均值: [5. 6. 7. 8.]
展平后: [ 1  2  3  4  5  6  7  8  9 10 11 12]


#### 题目 6：布尔索引
- 题目：生成一个 (5, 5) 的随机数组，范围 [0, 20)。  
- - 找出数组中大于 10 的元素。  
- - 将所有大于 10 的元素替换为 0。  

- 解析：
- - 使用 np.random.randint() 生成数组。  
- - 用 arr[arr > 10] 筛选元素。  
- - 直接赋值 arr[arr > 10] = 0 替换。

In [30]:
arr = np.random.randint(0, 20, (5, 5))
print(">10的元素:", arr[arr > 10])
arr[arr > 10] = 0  # 替换为0
print("替换后:\n", arr)

>10的元素: [17 19 16 16 12 11 18 11 17 17]
替换后:
 [[7 0 2 8 6]
 [0 0 0 3 0]
 [7 0 9 8 0]
 [0 0 3 2 0]
 [6 9 2 2 0]]


#### 题目 7：统计函数应用
- 题目：某公司 6 个月的销售额（万元）为 [120, 135, 110, 125, 130, 140]。  
- - 计算销售额的总和、均值和方差。  
- - 找出销售额最高的月份和最低的月份。  

- 解析：
- - np.sum()、np.mean()、np.var() 计算统计量。  
- - np.argmax() 和 np.argmin() 返回极值索引。 

In [31]:
sales = np.array([120, 135, 110, 125, 130, 140])
print("总和:", np.sum(sales))  # 760
print("均值:", np.mean(sales))  # 126.67
print("方差:", np.var(sales))  # 108.89
print("最高月份:", np.argmax(sales) + 1)  # 6
print("最低月份:", np.argmin(sales) + 1)  # 3

总和: 760
均值: 126.66666666666667
方差: 97.22222222222223
最高月份: 6
最低月份: 3


#### 题目 8：数组拼接
- 题目：给定 A = [1, 2, 3] 和 B = [4, 5, 6]。  
- - 水平拼接为 [1, 2, 3, 4, 5, 6]。  
- - 垂直拼接为 [[1, 2, 3], [4, 5, 6]]。  

- 解析：
- - 水平拼接用 np.concatenate((A, B))。  
- - 垂直拼接需先转为二维 np.vstack((A, B))。

In [32]:
A, B = np.array([1, 2, 3]), np.array([4, 5, 6])
concatenate = np.concatenate((A, B))
print("水平拼接:", concatenate)  # [1, 2, 3, 4, 5, 6]
print("垂直拼接:\n", np.vstack((A, B)))  # [[1,2,3], [4,5,6]]
print("垂直拼接:\n", np.reshape(concatenate, (2, 3)))  # [[1,2,3], [4,5,6]]

水平拼接: [1 2 3 4 5 6]
垂直拼接:
 [[1 2 3]
 [4 5 6]]
垂直拼接:
 [[1 2 3]
 [4 5 6]]


#### 题目 9：唯一值与排序
- 题目：给定数组 [2, 1, 2, 3, 1, 4, 3]。  
- - 找出唯一值并排序。  
- - 计算每个唯一值出现的次数。  

- 解析：
- - np.unique() 返回唯一值并排序。  
- - return_counts=True 统计频次。  

In [33]:
arr = np.array([2, 1, 2, 3, 1, 4, 3])
unique_values, counts = np.unique(arr, return_counts=True)
print("唯一值:", unique_values)  # [1, 2, 3, 4]
print("出现次数:", counts)       # [2, 2, 2, 1]

唯一值: [1 2 3 4]
出现次数: [2 2 2 1]


#### 题目 10：缺失值处理
- 题目：给定数组 [1, np.nan, 3, np.nan, 5]。  
- - 计算非缺失值的数量。  
- - 将缺失值替换为 0。  

- 解析：
- - np.isnan() 检测缺失值。  
- - ~np.isnan(arr) 计算非缺失值数量。  
- - arr[np.isnan(arr)] = 0 替换缺失值。  

In [34]:
arr = np.array([1, np.nan, 3, np.nan, 5])
print("非缺失值数量:", np.sum(~np.isnan(arr)))  # 3
arr[np.isnan(arr)] = 0  # 替换为0
print("替换后:", arr)  # [1, 0, 3, 0, 5]

非缺失值数量: 3
替换后: [1. 0. 3. 0. 5.]
