<a href="https://colab.research.google.com/github/XTMay/python-data-science-course/blob/main/notebooks/Lec_2_Introduction_to_NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lesson 02: Introduction to [NumPy](https://numpy.org/)

## 🎯 学习目标 / Learning Objectives

	•	了解 NumPy 是什么及其在数据科学中的作用
	•	创建 NumPy 数组（ndarray）
	•	学习常用数组操作（shape, dtype, indexing, slicing）
	•	使用 NumPy 进行基础数学计算
	•	练习：编写向量化代码提高效率

## 🔧 什么是 NumPy？What is NumPy?

NumPy（Numerical Python）是 Python 中用于高效数值计算的核心库。
它提供了一个强大的 n 维数组对象 ndarray，并支持矢量化操作（无需使用循环）。

### 🔢 创建 NumPy 数组 / Creating NumPy Arrays

In [1]:
import numpy as np

In [2]:
# 从列表创建数组
a = np.array([1, 2, 3, 4])
print("a =", a)

a = [1 2 3 4]


In [3]:
a

array([1, 2, 3, 4])

In [4]:
lst = [1, 2, 3, 4]
lst

[1, 2, 3, 4]

In [5]:
type(lst)

list

In [6]:
type(a)

numpy.ndarray

In [7]:
# 创建二维数组
b = np.array([[1, 2], [3, 4]])
print("b =\n", b)

b =
 [[1 2]
 [3 4]]


In [8]:
# 创建全 0、全 1 和空数组
zeros = np.zeros((2, 3)) # row: 2 col: 3
ones = np.ones((3, 3))

In [9]:
print("Zeros:\n", zeros)
print("Ones:\n", ones)

Zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]
Ones:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [14]:
empty = np.empty((2, 2)) # np.empty() 用于创建一个未初始化的数组，即数组中的元素值是任意的（内存中的垃圾值），不建议直接使用其内容。

In [15]:
print("Empty:\n", empty)

Empty:
 [[4.38274083e-316 0.00000000e+000]
 [5.33854926e-317 6.89205010e-310]]


In [19]:
# 创建等差数组或等间距数组
arange_arr = np.arange(0, 17, 4) # step: 2. start: 0 <= number < end: 10
linspace_arr = np.linspace(0, 99, 50) # number of values: 5, start: 0 <= number <= end: 1

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [ 0  4  8 12 16]
Linspace: [ 0.          2.02040816  4.04081633  6.06122449  8.08163265 10.10204082
 12.12244898 14.14285714 16.16326531 18.18367347 20.20408163 22.2244898
 24.24489796 26.26530612 28.28571429 30.30612245 32.32653061 34.34693878
 36.36734694 38.3877551  40.40816327 42.42857143 44.44897959 46.46938776
 48.48979592 50.51020408 52.53061224 54.55102041 56.57142857 58.59183673
 60.6122449  62.63265306 64.65306122 66.67346939 68.69387755 70.71428571
 72.73469388 74.75510204 76.7755102  78.79591837 80.81632653 82.83673469
 84.85714286 86.87755102 88.89795918 90.91836735 92.93877551 94.95918367
 96.97959184 99.        ]


In [20]:
arange_arr = np.arange(10, 26, 3) # step: 3 start <= n < end
linspace_arr = np.linspace(1, 100, 10) # number of values: start <= n <= end

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [10 13 16 19 22 25]
Linspace: [  1.  12.  23.  34.  45.  56.  67.  78.  89. 100.]


### 📐 数组属性和基本操作 / Array Attributes and Basic Operations

In [21]:
arr = np.array([[10, 20, 30, 88], [40, 50, 60, 99], [42, 51, 63, 100]])

In [22]:
print("Shape:", arr.shape)

Shape: (3, 4)


In [23]:
arr

array([[ 10,  20,  30,  88],
       [ 40,  50,  60,  99],
       [ 42,  51,  63, 100]])

In [24]:
print("Size:", arr.size)

Size: 12


In [25]:
print("Data type:", arr.dtype)

Data type: int64


## Matrix 行列式

In [26]:
arr

array([[ 10,  20,  30,  88],
       [ 40,  50,  60,  99],
       [ 42,  51,  63, 100]])

In [27]:
# 转置 行--》 列 列--〉行
print("Transpose:\n", arr.T)

Transpose:
 [[ 10  40  42]
 [ 20  50  51]
 [ 30  60  63]
 [ 88  99 100]]


In [28]:
arr = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

In [30]:
arr

array([[11, 22, 33],
       [44, 55, 66],
       [77, 88, 99]])

In [31]:
print("Transpose:\n", arr.T)

Transpose:
 [[11 44 77]
 [22 55 88]
 [33 66 99]]


### 🔍 索引与切片 / Indexing and Slicing

In [32]:
# 一维索引
a = np.array([10, 20, 30, 40, 55, 77])

In [33]:
a

array([10, 20, 30, 40, 55, 77])

In [35]:
print("a[2] =", a[2])  # index: 0

a[2] = 30


In [36]:
# 多维索引
b = np.array([[11, 22, 30], [40, 50, 60], [40, 55, 77]])
b

array([[11, 22, 30],
       [40, 50, 60],
       [40, 55, 77]])

In [37]:
print("b[2, 1] =", b[2, 1])  # 6

b[2, 1] = 55


In [41]:
# 切片
print("b[:, 2] =", b[:, 2])  # 第二列, :

b[:, 2] = [30 60 77]


In [None]:
print("b[2, :] =", b[2, :])  # 第一行 # : all, 所有

### ➕ 常见数学运算 / Basic Mathematical Operations

In [None]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

In [None]:
# 向量化运算（不需要for循环！）
print("加法:", x + y)

In [None]:
print("乘法:", x * y)

In [None]:
print("平方:", x ** 2)

In [None]:
# 应用数学函数
print("sin(x):", np.sin(x))

In [None]:
print("mean:", np.mean(y))

In [None]:
print("sum:", np.sum(y))

In [None]:
print("max:", np.max(y))

In [None]:
print("min:", np.min(y))

### 🎲 随机数生成 / Random Number Generation

In [None]:
# 设置随机种子，确保结果可重复
np.random.seed(42)

In [None]:
rand_arr = np.random.rand(2, 3)  # 均匀分布
randn_arr = np.random.randn(3)   # 标准正态分布
randint_arr = np.random.randint(0, 10, size=(2, 4))  # 整数

In [None]:
print("Random (0-1):\n", rand_arr)
print("Normal distribution:\n", randn_arr)
print("Random Integers:\n", randint_arr)

### 🧠 小练习 / Practice Challenge

### 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和

In [None]:
# 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和
arr = np.arange(1, 101)

In [None]:
arr

In [None]:
sum = 0
for i in range(1, 101):
  if i % 3 == 0 or i % 5 == 0:
    sum += i
print(sum)

In [None]:
# 使用布尔索引
mask = (arr % 3 == 0) | (arr % 5 == 0) # | OR
result = np.sum(arr[mask])

In [None]:
mask

In [None]:
print("能被 3 或 5 整除的数的和是:", result)

### 小练习：使用 NumPy vs 使用 for 循环

计算两个列表中对应元素的平方和
即：结果 = a[i]**2 + b[i]**2 for all i

#### ✅ 使用 Python for 循环

In [None]:
a = list(range(10))
b = list(range(10, 20))

result = []
for i in range(len(a)):
    result.append(a[i]**2 + b[i]**2)

In [None]:
result

#### ✅ 使用 NumPy 向量化

In [None]:
import numpy as np

a = np.arange(10)
b = np.arange(10, 20)

result = a**2 + b**2

### 小练习：多个数组运算 + 广播对比

In [None]:
A = [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 10, 11, 12]]

v = [1, 0, 1, 0]



```
A.shape == (3, 4)
v.shape == (4,)
```



In [None]:
result = []

for row in A:
  result.append([row[i] + v[i] for i in range(len(v))])

print(result)

#### ✅ 使用 NumPy 广播

In [None]:
import numpy as np

A = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

v = np.array([1, 0, 1, 0])
result = A + v

print(result)

## ✅ 总结 / Summary

| NumPy 概念        | 说明                                                         |
|------------------|------------------------------------------------------------|
| `ndarray`         | 高效的多维数组对象，支持元素级操作，存储结构紧凑                |
| 向量化操作        | 避免显式 `for` 循环，使用数组间的批量运算提高计算效率            |
| 广播（Broadcasting）| 使不同形状的数组可以进行算术运算，如标量加到矩阵上每个元素         |
| 随机模块           | 提供生成随机数的函数（如正态分布、均匀分布），用于模拟实验或创建数据集 |

## 📌 课后练习题

### ✅ 练习 1：数组创建与统计分析

**题目：**
创建一个包含 100 个介于 10 和 50 之间的整数的随机数组，完成以下任务：

	•	输出最大值、最小值、平均值、中位数
	•	统计每个数字出现的次数（提示：np.unique）

In [None]:
import numpy as np

# 在这里写代码👇

# 创建随机数组
random_array = np.random.randint(10, 51, size=100) # 51 is exclusive, so it generates up to 50

# 计算统计指标
max_value = np.max(random_array)
min_value = np.min(random_array)
mean_value = np.mean(random_array)
median_value = np.median(random_array)

print("Random Array:", random_array)
print("Max value:", max_value)
print("Min value:", min_value)
print("Mean value:", mean_value)
print("Median value:", median_value)

# 统计每个数字出现频率
unique_elements, counts = np.unique(random_array, return_counts=True)
print("Unique elements and their counts:", dict(zip(unique_elements, counts)))

### ✅ 练习 2：向量化运算与布尔筛选

**题目：**
给定一个随机数组 arr = np.random.randint(0, 100, size=50)，完成以下操作：

	•	找出所有大于等于 50 的数
	•	将这些数乘以 2，其余不变，生成新的数组


In [None]:
import numpy as np

arr = np.random.randint(0, 100, size=50)

# 在这里写代码👇

# 使用布尔索引提取 >=50 的数
greater_than_50 = arr[arr >= 50]
print("Numbers greater than or equal to 50:", greater_than_50)

# 构建新的数组（满足条件乘2，不满足保持不变）
new_arr = np.where(arr >= 50, arr * 2, arr)
print("Original array:", arr)
print("New array:", new_arr)

### ✅ 练习 3：矩阵与广播

**题目：**
给定一个矩阵 A，每一行表示一位学生的 4 门课程成绩。现在假设每门课程有一个加权系数 [0.1, 0.2, 0.3, 0.4]，请使用广播计算每位学生的加权平均分。

In [None]:
import numpy as np

A = np.array([
    [80, 90, 85, 70],
    [78, 88, 82, 76],
    [92, 85, 87, 80]
])

weights = np.array([0.1, 0.2, 0.3, 0.4])

# 在这里写代码👇

# 使用广播计算加权和
weighted_scores = A * weights

# 使用 axis 参数控制加权平均方式
weighted_average = np.sum(weighted_scores, axis=1)

print("Weighted Scores:\n", weighted_scores)
print("Weighted Average:\n", weighted_average)