<a href="https://colab.research.google.com/github/XTMay/python-data-science-course/blob/main/notebooks/Lec_2_Introduction_to_NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lesson 02: Introduction to [NumPy](https://numpy.org/)

## 🎯 学习目标 / Learning Objectives

	•	了解 NumPy 是什么及其在数据科学中的作用
	•	创建 NumPy 数组（ndarray）
	•	学习常用数组操作（shape, dtype, indexing, slicing）
	•	使用 NumPy 进行基础数学计算
	•	练习：编写向量化代码提高效率

## 🔧 什么是 NumPy？What is NumPy?

NumPy（Numerical Python）是 Python 中用于高效数值计算的核心库。
它提供了一个强大的 n 维数组对象 ndarray，并支持矢量化操作（无需使用循环）。

### 🔢 创建 NumPy 数组 / Creating NumPy Arrays

In [None]:
import numpy as np

In [None]:
# 从列表创建数组
a = np.array([1, 2, 3, 4])
print("a =", a)

a = [1 2 3 4]


In [None]:
a

array([1, 2, 3, 4])

In [None]:
lst = [1, 2, 3, 4]
lst

[1, 2, 3, 4]

In [None]:
type(lst)

list

In [None]:
type(a)

numpy.ndarray

In [None]:
# 创建二维数组
b = np.array([[1, 2], [3, 4]])
print("b =\n", b)

b =
 [[1 2]
 [3 4]]


In [None]:
# 创建全 0、全 1 和空数组
zeros = np.zeros((2, 3)) # row: 2 col: 3
ones = np.ones((3, 3))

In [None]:
print("Zeros:\n", zeros)
print("Ones:\n", ones)

Zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]
Ones:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [None]:
empty = np.empty((2, 2)) # np.empty() 用于创建一个未初始化的数组，即数组中的元素值是任意的（内存中的垃圾值），不建议直接使用其内容。

In [None]:
print("Empty:\n", empty)

Empty:
 [[1.02293202e-315 0.00000000e+000]
 [1.09153378e-315 1.09153378e-315]]


In [None]:
# 创建等差数组或等间距数组
arange_arr = np.arange(0, 10, 2) # step: 4. start: 0 <= number < end: 17
linspace_arr = np.linspace(0, 10, 5) # number of values: 5, start: 0 <= number <= end: 1

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [0 2 4 6 8]
Linspace: [ 0.   2.5  5.   7.5 10. ]


In [None]:
arange_arr = np.arange(10, 26, 3) # step: 3 start <= n < end
linspace_arr = np.linspace(1, 100, 10) # number of values: start <= n <= end

print("Arange:", arange_arr)
print("Linspace:", linspace_arr)

Arange: [10 13 16 19 22 25]
Linspace: [  1.  12.  23.  34.  45.  56.  67.  78.  89. 100.]


### 📐 数组属性和基本操作 / Array Attributes and Basic Operations

In [None]:
arr = np.array([[10, 20, 30, 88], [40, 50, 60, 99], [42, 51, 63, 100]])

In [None]:
print("Shape:", arr.shape)

Shape: (3, 4)


In [None]:
arr

array([[ 10,  20,  30,  88],
       [ 40,  50,  60,  99],
       [ 42,  51,  63, 100]])

In [None]:
print("Size:", arr.size) # row * col

Size: 12


In [None]:
print("Data type:", arr.dtype)

Data type: int64


## Matrix 行列式

In [None]:
arr

array([[ 10,  20,  30,  88],
       [ 40,  50,  60,  99],
       [ 42,  51,  63, 100]])

In [None]:
# 转置 行--〉列, 列--〉行
print("Transpose:\n", arr.T)

Transpose:
 [[ 10  40  42]
 [ 20  50  51]
 [ 30  60  63]
 [ 88  99 100]]


In [None]:
arr = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

In [None]:
arr

array([[11, 22, 33],
       [44, 55, 66],
       [77, 88, 99]])

In [None]:
print("Transpose:\n", arr.T)

Transpose:
 [[11 44 77]
 [22 55 88]
 [33 66 99]]


### 🔍 索引与切片 / Indexing and Slicing

In [None]:
# 一维索引
a = np.array([10, 20, 30, 40, 55, 77])

In [None]:
a

array([10, 20, 30, 40, 55, 77])

In [None]:
print("a[2] =", a[2])  # index: 0

a[2] = 30


In [None]:
# 多维索引
b = np.array([[11, 22, 30], [40, 50, 60], [40, 55, 77]])
b

array([[11, 22, 30],
       [40, 50, 60],
       [40, 55, 77]])

In [None]:
b[0, 1]

np.int64(22)

In [None]:
print("b[2, 1] =", b[2, 1])  # 55

b[2, 1] = 55


In [None]:
# b[row, col] # : ALL

In [None]:
# 切片
print("b[:, 2] =", b[:, 2])  # 第二列, :

b[:, 2] = [30 60 77]


In [None]:
print("b[2, :] =", b[2, :])  # 第一行 # : all, 所有

b[2, :] = [40 55 77]


In [None]:
print(b[0:1, 1:2]) # start:end sstart <= idx < end

[[22]]


### ➕ 常见数学运算 / Basic Mathematical Operations

In [None]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

In [None]:
# 向量化运算（不需要for循环！）
print("加法:", x + y)

加法: [11 22 33]


In [None]:
print("乘法:", x * y)

乘法: [10 40 90]


In [None]:
print("平方:", x ** 2)

平方: [1 4 9]


In [None]:
# 应用数学函数
print("sin(x):", np.sin(x))

sin(x): [0.84147098 0.90929743 0.14112001]


In [None]:
print("mean:", np.mean(y))

mean: 20.0


#### meand([1, 2, 3])

In [None]:
print("sum:", np.sum(y))

sum: 60


In [None]:
print("max:", np.max(y))

max: 30


In [None]:
print("min:", np.min(y))

min: 10


### 🎲 随机数生成 / Random Number Generation

In [None]:
# 设置随机种子，确保结果可重复
np.random.seed(42)

In [None]:
rand_arr = np.random.rand(2, 3)  # 均匀分布
randn_arr = np.random.randn(3)   # 标准正态分布
randint_arr = np.random.randint(0, 10, size=(2, 4))  # 整数

In [None]:
print("Random (0-1):\n", rand_arr)
print("Normal distribution:\n", randn_arr)
print("Random Integers:\n", randint_arr)

Random (0-1):
 [[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
Normal distribution:
 [ 1.57921282  0.76743473 -0.46947439]
Random Integers:
 [[4 0 9 5]
 [8 0 9 2]]


### 🧠 小练习 / Practice Challenge

### 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和

In [None]:
# 练习：创建一个 1 到 100 的数组，找出所有能被 3 或 5 整除的数的和
arr = np.arange(1, 101)

In [None]:
arr

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

3 % 3 = 1....0

In [None]:
sum = 0
for i in range(1, 101): #list
  if i % 3 == 0 or i % 5 == 0: # %
    sum += i # sum = sum + i
print(sum)

2418


In [None]:
math.sum()

In [None]:
# 使用布尔索引
mask = (arr % 3 == 0) | (arr % 5 == 0) # | OR, & AND
result = np.sum(arr[mask])

In [None]:
mask

array([False, False,  True, False,  True,  True, False, False,  True,
        True, False,  True, False, False,  True, False, False,  True,
       False,  True,  True, False, False,  True,  True, False,  True,
       False, False,  True, False, False,  True, False,  True,  True,
       False, False,  True,  True, False,  True, False, False,  True,
       False, False,  True, False,  True,  True, False, False,  True,
        True, False,  True, False, False,  True, False, False,  True,
       False,  True,  True, False, False,  True,  True, False,  True,
       False, False,  True, False, False,  True, False,  True,  True,
       False, False,  True,  True, False,  True, False, False,  True,
       False, False,  True, False,  True,  True, False, False,  True,
        True])

In [None]:
print("能被 3 或 5 整除的数的和是:", result)

能被 3 或 5 整除的数的和是: 2418


### 小练习：使用 NumPy vs 使用 for 循环

计算两个列表中对应元素的平方和
即：结果 = a[i]**2 + b[i]**2 for all i

#### ✅ 使用 Python for 循环

In [None]:
a = list(range(10))
b = list(range(10, 20))

result = []
for i in range(len(a)):
    result.append(a[i]**2 + b[i]**2)

In [None]:
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
b

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [None]:
result

[100, 122, 148, 178, 212, 250, 292, 338, 388, 442]

#### ✅ 使用 NumPy 向量化

In [None]:
import numpy as np

a = np.arange(10)
b = np.arange(10, 20)

result = a**2 + b**2

In [None]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
b

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [None]:
result

array([100, 122, 148, 178, 212, 250, 292, 338, 388, 442])

### 小练习：多个数组运算 + 广播对比

In [None]:
A = [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 10, 11, 12]]

v = [1, 0, 1, 0]



```
A.shape == (3, 4)
v.shape == (4,)
```



In [None]:
result = []

for row in A:
  # print(row)
  result.append([row[i] + v[i] for i in range(len(v))])

print(result)

[[2, 2, 4, 4], [6, 6, 8, 8], [10, 10, 12, 12]]


#### ✅ 使用 NumPy 广播

In [None]:
import numpy as np

A = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

v = np.array([1, 0, 1, 0])

result = A + v

print(result)

[[ 2  2  4  4]
 [ 6  6  8  8]
 [10 10 12 12]]


## ✅ 总结 / Summary

| NumPy 概念        | 说明                                                         |
|------------------|------------------------------------------------------------|
| `ndarray`         | 高效的多维数组对象，支持元素级操作，存储结构紧凑                |
| 向量化操作        | 避免显式 `for` 循环，使用数组间的批量运算提高计算效率            |
| 广播（Broadcasting）| 使不同形状的数组可以进行算术运算，如标量加到矩阵上每个元素         |
| 随机模块           | 提供生成随机数的函数（如正态分布、均匀分布），用于模拟实验或创建数据集 |

## 📌 课后练习题

### ✅ 练习 1：数组创建与统计分析

**题目：**
创建一个包含 100 个介于 10 和 50 之间的整数的随机数组，完成以下任务：

	•	输出最大值、最小值、平均值、中位数
	•	统计每个数字出现的次数（提示：np.unique）

In [None]:
import numpy as np

# 在这里写代码👇


### ✅ 练习 2：向量化运算与布尔筛选

**题目：**
给定一个随机数组 arr = np.random.randint(0, 100, size=50)，完成以下操作：

	•	找出所有大于等于 50 的数
	•	将这些数乘以 2，其余不变，生成新的数组


In [None]:
import numpy as np

arr = np.random.randint(0, 100, size=50)

# 在这里写代码👇


### ✅ 练习 3：矩阵与广播

**题目：**
给定一个矩阵 A，每一行表示一位学生的 4 门课程成绩。现在假设每门课程有一个加权系数 [0.1, 0.2, 0.3, 0.4]，请使用广播计算每位学生的加权平均分。

In [None]:
import numpy as np

A = np.array([
    [80, 90, 85, 70],
    [78, 88, 82, 76],
    [92, 85, 87, 80]
])

weights = np.array([0.1, 0.2, 0.3, 0.4])

# 在这里写代码👇

