# NumPy 学习笔记

## 第1章：NumPy基础

### 1.1 导入NumPy

In [None]:
# 导入NumPy库并使用np作为别名，这是约定俗成的写法
import numpy as np

### 1.2 创建NumPy数组

In [None]:
# 使用np.random.randn创建一个2行3列的随机数组
# randn生成的是标准正态分布（均值为0，标准差为1）的随机数
data = np.random.randn(2, 3)
data

In [None]:
# 数组与标量的乘法运算，每个元素都会乘以10
# 这是NumPy的广播机制
data * 10

In [None]:
# 查看数组的形状（维度），返回一个元组
# 这里返回(2, 3)表示2行3列
data.shape

In [None]:
# 查看数组的数据类型
# randn默认生成float64类型
data.dtype

In [None]:
# 从Python列表创建NumPy数组
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

In [None]:
# 从嵌套列表创建二维数组
data2 = [[1, 2, 3], [4, 5, 6]]
arr2 = np.array(data2)
arr2

In [None]:
# 查看数组的维度（ndim表示number of dimensions）
# 这里返回2表示二维数组
arr2.ndim

In [None]:
# 再次查看数组形状
arr2.shape

In [None]:
# 查看arr1的数据类型，包含整数和浮点数时会自动向上转换为float64
arr1.dtype

In [None]:
# 查看arr2的数据类型，全是整数所以是int32或int64
arr2.dtype

In [None]:
# 创建全0数组，参数是长度
np.zeros(10)

In [None]:
# 创建多维全0数组，参数是形状元组
np.zeros((3, 6))

In [None]:
# 创建空数组，只分配内存不初始化，内容是随机的
# 比zeros快，但需要手动初始化
np.empty((2, 3, 2))

In [None]:
# 创建连续整数数组，类似Python的range
# arange(start, stop, step)，这里start=0，step=1
np.arange(15)

### 1.3 ndarray的数据类型

In [None]:
# 显式指定数据类型
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype

In [None]:
arr2.dtype

In [None]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

In [None]:
# 使用astype方法转换数据类型
# 注意：astype总是返回新数组，即使类型相同
float_arr = arr.astype(np.float64)
float_arr.dtype

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

In [None]:
# 浮点数转整数会截断小数部分，不是四舍五入
arr.astype(np.int32)

In [None]:
# 字符串数组转数值数组
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

In [None]:
# 也可以使用另一个数组的dtype属性
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

In [None]:
# 使用类型代码字符串指定数据类型
# 'u4'表示unsigned int 32位
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

### 1.4 NumPy数组的运算

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

In [None]:
# 数组乘法：对应元素相乘（不是矩阵乘法）
arr * arr

In [None]:
# 数组减法：对应元素相减
arr - arr

In [None]:
# 标量与数组运算：广播到所有元素
1 / arr

In [None]:
# 数组幂运算：每个元素开平方
arr ** 0.5

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

In [None]:
# 数组比较：返回布尔数组
arr2 > arr

## 第2章：基本的索引和切片

In [None]:
arr = np.arange(10)
arr

In [None]:
# 索引：获取第6个元素（索引从0开始）
arr[5]

In [None]:
# 切片：获取索引5到7的元素（不包含8）
arr[5:8]

In [None]:
# 切片赋值：将切片范围内的所有元素设为12
arr[5:8] = 12
arr

In [None]:
# 注意：NumPy切片是原数组的视图（view），不是副本
# 修改切片会影响原数组
arr_slice = arr[5:8]
arr_slice

In [None]:
# 修改切片的元素，原数组也会改变
arr_slice[1] = 12345
arr

In [None]:
arr_slice[:] = 64
arr

In [None]:
# 二维数组索引
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 获取第3行（索引2）
arr2d[2]

In [None]:
# 两种方式获取单个元素
arr2d[0][2]

In [None]:
# 推荐使用逗号分隔的索引方式
arr2d[0, 2]

In [None]:
# 三维数组索引
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [None]:
# 获取第一个二维数组
arr3d[0]

In [None]:
# 如果需要副本，使用copy()方法
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

In [None]:
# 恢复原值
arr3d[0] = old_values
arr3d

In [None]:
# 获取第二个二维数组的第一行
arr3d[1, 0]

In [None]:
# 分步索引，效果相同
x = arr3d[1]
x

In [None]:
x[0]

### 2.1 切片索引

In [None]:
arr

In [None]:
# 一维数组切片
arr[1:6]

In [None]:
arr2d

In [None]:
# 二维数组切片：行切片
# 获取前两行（索引0和1）
arr2d[:2]

In [None]:
# 同时切片行和列
# 前两行，从第2列开始
arr2d[:2, 1:]

In [None]:
# 混合索引和切片
# 第2行，前两列
arr2d[1, :2]

In [None]:
# 前两行，第3列
arr2d[:2, 2]

In [None]:
# 所有行，第1列
arr2d[:, :1]

In [None]:
# 通过切片赋值
arr2d[:2, 1:] = 0
arr2d

## 第3章：布尔型索引

In [None]:
# 创建名字数组和对应的数据
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names

In [None]:
data

In [None]:
# 布尔比较：返回布尔数组
names == 'Bob'

In [None]:
# 使用布尔数组索引：只选择对应True的行
# 这里选择名字是Bob的行
data[names == 'Bob']

In [None]:
# 结合布尔索引和切片
# 选择Bob的行，从第3列开始
data[names == 'Bob', 2:]

In [None]:
# 选择Bob的行，第4列
data[names == 'Bob', 3]

In [None]:
# 使用!=或者~进行否定
names != 'Bob'

In [None]:
data[~(names == 'Bob')]

In [None]:
# 也可以先保存条件
cond = names == 'Bob'
data[~cond]

In [None]:
# 使用|（或）和&（且）组合多个条件
# 注意：不能用and/or，必须用&/|
mask = (names == 'Bob') | (names == 'Will')
mask

In [None]:
data[mask]

In [None]:
# 使用布尔索引设置值
# 将所有负数设为0
data[data < 0] = 0
data

In [None]:
# 将不是Joe的行全部设为7
data[names != 'Joe'] = 7
data

## 第4章：花式索引

In [None]:
# 创建一个8x4的数组
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

In [None]:
# 使用整数列表进行花式索引
# 按指定顺序选择行
arr[[4, 3, 0, 6]]

In [None]:
# 使用负数索引从末尾开始
arr[[-3, -5, -7]]

In [None]:
arr = np.arange(32).reshape((8, 4))
arr

In [None]:
# 传递两个索引数组：选择对应的元素
# 结果是一维数组，包含(1,0), (5,3), (7,1), (2,2)
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

In [None]:
# 选择矩形区域：先选行，再选列
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

In [None]:
# 使用np.ix_函数生成网格索引
# 效果同上，但更高效
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

## 第5章：数组转置和轴对换

In [None]:
arr = np.arange(15).reshape((3, 5))
arr

In [None]:
# 使用T属性转置数组
# 行变列，列变行
arr.T

In [None]:
arr = np.random.randn(6, 3)
arr

In [None]:
# 计算矩阵内积 X^T X
np.dot(arr.T, arr)

In [None]:
# 三维数组
arr = np.arange(16).reshape((2, 2, 4))
arr

In [None]:
# 使用transpose方法进行轴对换
# 参数是新的轴顺序元组
# 这里将轴0和轴1互换
arr.transpose((1, 0, 2))

In [None]:
arr

In [None]:
# 使用swapaxes方法互换两个轴
# 接受一对轴编号作为参数
arr.swapaxes(1, 2)

## 第6章：通用函数：快速的元素级数组函数

In [None]:
arr = np.arange(10)
arr

In [None]:
# 一元ufunc：平方根
np.sqrt(arr)

In [None]:
# 一元ufunc：指数函数 e^x
np.exp(arr)

In [None]:
# 二元ufunc：接收两个数组
x = np.random.randn(8)
y = np.random.randn(8)
x

In [None]:
y

In [None]:
# 二元ufunc：逐个元素比较，取最大值
np.maximum(x, y)

In [None]:
# 返回多个数组的ufunc
arr = np.random.randn(7) * 5
arr

In [None]:
# modf返回小数部分和整数部分
remainder, whole_part = np.modf(arr)
remainder

In [None]:
whole_part

In [None]:
arr

In [None]:
# 不修改原数组，返回新数组
np.sqrt(arr)

In [None]:
# 使用out参数直接修改原数组
np.sqrt(arr, arr)

In [None]:
arr

## 第7章：利用数组进行数据处理

In [None]:
# 使用meshgrid生成网格点坐标矩阵
points = np.arange(-5, 5, 0.01)
xs, ys = np.meshgrid(points, points)
ys

In [None]:
import matplotlib.pyplot as plt
# 计算到原点的距离
z = np.sqrt(xs ** 2 + ys ** 2)
z

In [None]:
# 可视化
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

### 7.1 将条件逻辑表述为数组运算

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
# Python列表推导式实现三元运算符
# 缺点：对大数组慢，且不能用于多维数组
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

In [None]:
# 使用np.where：向量化的三元运算符
# np.where(condition, x, y)：condition为True选x，否则选y
result = np.where(cond, xarr, yarr)
result

In [None]:
arr = np.random.randn(4, 4)
arr

In [None]:
arr > 0

In [None]:
# 正数替换为2，负数替换为-2
np.where(arr > 0, 2, -2)

In [None]:
# 只修改正数为2，负数保持不变
np.where(arr > 0, 2, arr)

### 7.2 数学和统计方法

In [None]:
arr = np.random.randn(5, 4)
arr

In [None]:
# 数组方法：计算所有元素的均值
arr.mean()

In [None]:
# NumPy函数形式
np.mean(arr)

In [None]:
# 求和
arr.sum()

In [None]:
# 指定轴：axis=1表示沿行方向（每一行计算均值）
arr.mean(axis=1)

In [None]:
# axis=0表示沿列方向（每一列求和）
arr.sum(axis=0)

In [None]:
# cumsum：累加和（不聚合，返回中间结果）
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

In [None]:
# 沿axis=0累加（列方向）
arr.cumsum(axis=0)

In [None]:
# cumprod：累乘积
arr.cumprod(axis=1)

### 7.3 用于布尔型数组的方法

In [None]:
arr = np.random.randn(100)
# 统计正数的个数（True=1，False=0）
(arr > 0).sum()

In [None]:
bools = np.array([False, False, True, False])
# any：是否至少有一个True
bools.any()

In [None]:
# all：是否全是True
bools.all()

### 7.4 排序

In [None]:
arr = np.random.randn(6)
arr

In [None]:
# 就地排序（修改原数组）
arr.sort()
arr

In [None]:
arr = np.random.randn(5, 3)
arr

In [None]:
# 沿轴排序（axis=1表示每行内部排序）
arr.sort(1)
arr

In [None]:
# 计算分位数：先排序再取特定位置
large_arr = np.random.randn(1000)
large_arr.sort()
# 5%分位数
large_arr[int(0.05 * len(large_arr))]

### 7.5 唯一化以及其它的集合逻辑

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
# np.unique：返回排序后的唯一值
np.unique(names)

In [None]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [None]:
# 纯Python版本（较慢）
sorted(set(names))

In [None]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
# np.in1d：测试元素是否在另一个数组中
np.in1d(values, [2, 3, 6])

## 第8章：用于数组的文件输入输出

In [None]:
arr = np.arange(10)
# 保存为二进制.npy文件
np.save('some_array', arr)

In [None]:
# 加载.npy文件
np.load('some_array.npy')

In [None]:
# 保存多个数组到.npz压缩文件
np.savez('array_archive.npz', a=arr, b=arr)

In [None]:
# 加载.npz文件，返回一个字典-like对象
arch = np.load('array_archive.npz')
arch['b']

In [None]:
# 压缩保存（文件更小）
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

## 第9章：线性代数

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x

In [None]:
y

In [None]:
# 矩阵乘法：x.dot(y) 或 np.dot(x, y)
x.dot(y)

In [None]:
np.dot(x, y)

In [None]:
np.ones(3)

In [None]:
# 矩阵与向量相乘
np.dot(x, np.ones(3))

In [None]:
# Python 3.5+ 可以使用 @ 运算符进行矩阵乘法
x @ np.ones(3)

In [None]:
# numpy.linalg包含矩阵分解和标准线性代数运算
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
# 逆矩阵
inv(mat)

In [None]:
# 验证：矩阵乘以逆矩阵应该接近单位矩阵
mat.dot(inv(mat))

In [None]:
# QR分解：将矩阵分解为正交矩阵Q和上三角矩阵R
q, r = qr(mat)
r

## 第10章：伪随机数生成

In [None]:
# 标准正态分布随机数
samples = np.random.normal(size=(4, 4))
samples

In [None]:
# 对比：Python内置random模块（慢很多）
from random import normalvariate
N = 1000000
samples = [normalvariate(0, 1) for _ in range(N)]
# 设置全局随机种子
np.random.seed(1234)

In [None]:
# 使用RandomState创建独立的随机数生成器
# 不影响全局随机状态
rng = np.random.RandomState(1234)
rng.randn(10)

## 第11章：示例：随机漫步

In [None]:
# Python纯循环实现随机漫步
import random
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [None]:
# 可视化前100步
plt.plot(walk[:100])

In [None]:
# NumPy向量化实现（更高效）
nsteps = 1000
# 生成0或1
draws = np.random.randint(0, 2, size=nsteps)
# 转换为+1或-1
steps = np.where(draws > 0, 1, -1)
# 累加得到漫步轨迹
walk = steps.cumsum()

In [None]:
# 统计信息：最小值
walk.min()

In [None]:
# 最大值
walk.max()

In [None]:
# 首次到达距离原点>=10的步数
# argmax返回第一个True的索引
(np.abs(walk) >= 10).argmax()

In [None]:
# 一次模拟多次随机漫步（5000次）
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps))
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

In [None]:
# 所有漫步的最大值
walks.max()

In [None]:
# 所有漫步的最小值
walks.min()

In [None]:
# 计算哪些漫步到达过距离原点>=30
hits30 = (np.abs(walks) >= 30).any(1)
hits30

In [None]:
# 到达过30的漫步数量
hits30.sum()

In [None]:
# 只看那些到达过30的漫步
# 计算它们首次到达30的平均步数
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)
crossing_times.mean()

In [None]:
# 使用正态分布的步长（而不是简单的+1/-1）
steps = np.random.normal(loc=0, scale=0.25,
                         size=(nwalks, nsteps))