# 🧮 Lesson 02: Introduction to [NumPy](https://numpy.org/)

## 🎯 学习目标 / Learning Objectives

	•	了解 NumPy 是什么及其在数据科学中的作用
	•	创建 NumPy 数组（ndarray）
	•	学习常用数组操作（shape, dtype, indexing, slicing）
	•	使用 NumPy 进行基础数学计算
	•	练习：编写向量化代码提高效率

## 🔧 什么是 NumPy？What is NumPy?

NumPy（Numerical Python）是 Python 中用于高效数值计算的核心库。
它提供了一个强大的 n 维数组对象 ndarray，并支持矢量化操作（无需使用循环）。

### 🔢 创建 NumPy 数组 / Creating NumPy Arrays

In [81]:
import numpy as np

In [82]:
# 从列表创建数组
a = np.array([1, 2, 3, 4])
print("a =", a)

a = [1 2 3 4]


In [84]:
a

array([1, 2, 3, 4])

In [83]:
lst = [1, 2, 3, 4]
lst

[1, 2, 3, 4]

In [85]:
type(lst)

list

In [86]:
type(a)

numpy.ndarray

In [87]:
# 创建二维数组
b = np.array([[1, 2], [3, 4]])
print("b =\n", b)

b =
 [[1 2]
 [3 4]]


In [88]:
# 创建全 0、全 1 和空数组
zeros = np.zeros((2, 3)) # row: 2 col: 3
ones = np.ones((3, 3))

In [89]:
print("Zeros:\n", zeros)
print("Ones:\n", ones)

Zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]
Ones:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [90]:
empty = np.empty((2, 2)) # np.empty() 用于创建一个未初始化的数组，即数组中的元素值是任意的（内存中的垃圾值），不建议直接使用其内容。

In [91]:
print("Empty:\n", empty)

Empty:
 [[0.25 0.5 ]
 [0.75 1.  ]]


In [92]:
# 创建等差数组或等间距数组
arange_arr = np.arange(0, 10, 2) # step: 2. start: 0 <= number < end: 10
linspace_arr = np.linspace(0, 1, 5) # number of values: 5, start: 0 <= number <= end: 1

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [0 2 4 6 8]
Linspace: [0.   0.25 0.5  0.75 1.  ]


In [93]:
arange_arr = np.arange(10, 26, 3) # step: 3
linspace_arr = np.linspace(1, 100, 10) # number of values:

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [10 13 16 19 22 25]
Linspace: [  1.  12.  23.  34.  45.  56.  67.  78.  89. 100.]


### 📐 数组属性和基本操作 / Array Attributes and Basic Operations

In [96]:
arr = np.array([[10, 20, 30, 88], [40, 50, 60, 99], [42, 51, 63, 100]])

In [97]:
print("Shape:", arr.shape)

Shape: (3, 4)


In [98]:
print("Size:", arr.size)

Size: 12


In [99]:
print("Data type:", arr.dtype)

Data type: int64


## Matrix 行列式

In [100]:
arr

array([[ 10,  20,  30,  88],
       [ 40,  50,  60,  99],
       [ 42,  51,  63, 100]])

In [101]:
# 转置 行--》 列 列--〉行
print("Transpose:\n", arr.T)

Transpose:
 [[ 10  40  42]
 [ 20  50  51]
 [ 30  60  63]
 [ 88  99 100]]


In [102]:
arr = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

In [103]:
arr

array([[11, 22, 33],
       [44, 55, 66],
       [77, 88, 99]])

In [104]:
print("Transpose:\n", arr.T)

Transpose:
 [[11 44 77]
 [22 55 88]
 [33 66 99]]


### 🔍 索引与切片 / Indexing and Slicing

In [105]:
# 一维索引
a = np.array([10, 20, 30, 40, 55, 77])

In [106]:
a

array([10, 20, 30, 40, 55, 77])

In [107]:
print("a[3] =", a[3])  # index: 0

a[3] = 40


In [114]:
# 多维索引
b = np.array([[11, 22, 30], [40, 50, 60], [40, 55, 77]])
b

array([[11, 22, 30],
       [40, 50, 60],
       [40, 55, 77]])

In [112]:
print("b[2, 1] =", b[2, 1])  # 6

b2[2, 1] = 55


In [116]:
# 切片
print("b[:, 1] =", b[:, 1])  # 第二列

b[:, 1] = [22 50 55]


In [115]:
print("b[2, :] =", b[2, :])  # 第一行 # : all, 所有

b[2, :] = [40 55 77]


### ➕ 常见数学运算 / Basic Mathematical Operations

In [117]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

In [118]:
# 向量化运算（不需要for循环！）
print("加法:", x + y)

加法: [11 22 33]


In [119]:
print("乘法:", x * y)

乘法: [10 40 90]


In [120]:
print("平方:", x ** 2)

平方: [1 4 9]


In [121]:
# 应用数学函数
print("sin(x):", np.sin(x))

sin(x): [0.84147098 0.90929743 0.14112001]


In [122]:
print("mean:", np.mean(y))

mean: 20.0


In [123]:
print("sum:", np.sum(y))

sum: 60


In [124]:
print("max:", np.max(y))

max: 30


In [125]:
print("min:", np.min(y))

min: 10


### 🎲 随机数生成 / Random Number Generation

In [58]:
# 设置随机种子，确保结果可重复
np.random.seed(42)

In [126]:
rand_arr = np.random.rand(2, 3)  # 均匀分布
randn_arr = np.random.randn(3)   # 标准正态分布
randint_arr = np.random.randint(0, 10, size=(2, 4))  # 整数

In [127]:
print("Random (0-1):\n", rand_arr)
print("Normal distribution:\n", randn_arr)
print("Random Integers:\n", randint_arr)

Random (0-1):
 [[0.25877998 0.66252228 0.31171108]
 [0.52006802 0.54671028 0.18485446]]
Normal distribution:
 [ 0.73846658  0.17136828 -0.11564828]
Random Integers:
 [[1 4 7 9]
 [8 8 0 8]]


### 🧠 小练习 / Practice Challenge

# 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和

# Step 1: 创建一个 1 到 100 的数组，
# Step 2:  x/ 3 OR x/ 5
# Step 3:  sum(x)

In [128]:
# 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和
arr = np.arange(1, 101)

In [129]:
arr

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

In [133]:
sum = 0
for i in range(1, 101):
  if i % 3 == 0 or i % 5 == 0:
    sum += i
print(sum)

2418


In [130]:
# 使用布尔索引
mask = (arr % 3 == 0) | (arr % 5 == 0) # | OR
result = np.sum(arr[mask])

In [131]:
mask

array([False, False,  True, False,  True,  True, False, False,  True,
        True, False,  True, False, False,  True, False, False,  True,
       False,  True,  True, False, False,  True,  True, False,  True,
       False, False,  True, False, False,  True, False,  True,  True,
       False, False,  True,  True, False,  True, False, False,  True,
       False, False,  True, False,  True,  True, False, False,  True,
        True, False,  True, False, False,  True, False, False,  True,
       False,  True,  True, False, False,  True,  True, False,  True,
       False, False,  True, False, False,  True, False,  True,  True,
       False, False,  True,  True, False,  True, False, False,  True,
       False, False,  True, False,  True,  True, False, False,  True,
        True])

In [132]:
print("能被 3 或 5 整除的数的和是:", result)

能被 3 或 5 整除的数的和是: 2418


### 小练习：使用 NumPy vs 使用 for 循环

计算两个列表中对应元素的平方和
即：结果 = a[i]**2 + b[i]**2 for all i

#### ✅ 使用 Python for 循环

In [69]:
a = list(range(10))
b = list(range(10, 20))

result = []
for i in range(len(a)):
    result.append(a[i]**2 + b[i]**2)

In [70]:
result

[100, 122, 148, 178, 212, 250, 292, 338, 388, 442]

#### ✅ 使用 NumPy 向量化

In [73]:
import numpy as np

a = np.arange(10)
b = np.arange(10, 20)

result = a**2 + b**2

### 小练习：多个数组运算 + 广播对比

In [76]:
A = [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 10, 11, 12]]

v = [1, 0, 1, 0]



```
A.shape == (3, 4)
v.shape == (4,)
```



In [78]:
result = []

for row in A:
  result.append([row[i] + v[i] for i in range(len(v))])

print(result)

[[2, 2, 4, 4], [6, 6, 8, 8], [10, 10, 12, 12]]


#### ✅ 使用 NumPy 广播

In [80]:
import numpy as np

A = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

v = np.array([1, 0, 1, 0])
result = A + v

print(result)

[[ 2  2  4  4]
 [ 6  6  8  8]
 [10 10 12 12]]


## ✅ 总结 / Summary

| NumPy 概念        | 说明                                                         |
|------------------|------------------------------------------------------------|
| `ndarray`         | 高效的多维数组对象，支持元素级操作，存储结构紧凑                |
| 向量化操作        | 避免显式 `for` 循环，使用数组间的批量运算提高计算效率            |
| 广播（Broadcasting）| 使不同形状的数组可以进行算术运算，如标量加到矩阵上每个元素         |
| 随机模块           | 提供生成随机数的函数（如正态分布、均匀分布），用于模拟实验或创建数据集 |

## 📌 课后练习题

### ✅ 练习 1：数组创建与统计分析

**题目：**
创建一个包含 100 个介于 10 和 50 之间的整数的随机数组，完成以下任务：

	•	输出最大值、最小值、平均值、中位数
	•	统计每个数字出现的次数（提示：np.unique）

In [None]:
import numpy as np

# 在这里写代码👇

# 创建随机数组

# 计算统计指标

# 统计每个数字出现频率

### ✅ 练习 2：向量化运算与布尔筛选

**题目：**
给定一个随机数组 arr = np.random.randint(0, 100, size=50)，完成以下操作：

	•	找出所有大于等于 50 的数
	•	将这些数乘以 2，其余不变，生成新的数组


In [None]:
import numpy as np

arr = np.random.randint(0, 100, size=50)

# 在这里写代码👇

# 使用布尔索引提取 >=50 的数

# 构建新的数组（满足条件乘2，不满足保持不变）

### ✅ 练习 3：矩阵与广播

**题目：**
给定一个矩阵 A，每一行表示一位学生的 4 门课程成绩。现在假设每门课程有一个加权系数 [0.1, 0.2, 0.3, 0.4]，请使用广播计算每位学生的加权平均分。

In [None]:
import numpy as np

A = np.array([
    [80, 90, 85, 70],
    [78, 88, 82, 76],
    [92, 85, 87, 80]
])

weights = np.array([0.1, 0.2, 0.3, 0.4])

# 在这里写代码👇

# 使用广播计算加权和
# 使用 axis 参数控制加权平均方式