# Python 机器学习

## 1. Numpy 入门

### 1.1 数组基础

- Numpy 相较于 Python 列表，计算速度大大增加，代码也更加简洁，可以明显看出在进行大量数据计算时 Numpy 具有明显优势：

In [1]:
%%timeit

# 使用传统方式计算
list_a = [13, 2, 3, 12, 45, 78, 22, 33, 55, 88, 13, 23, 33, 12, 45, 78, 22, 33, 55, 88]
list_b = [43, 5, 6, 12, 24, 15, 12, 16, 85, 23, 43, 53, 63, 12, 24, 15, 12, 16, 85, 23]
list_c = []

for i in range(len(list_a)):
    list_c.append(list_a[i] ** list_b[i])

5.68 μs ± 27.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [2]:
%%timeit

# 使用 Numpy 数组计算
import numpy as np

array_a = np.array([13, 2, 3, 12, 45, 78, 22, 33, 55, 88, 13, 23, 33, 12, 45, 78, 22, 33, 55, 88])
array_b = np.array([43, 5, 6, 12, 24, 15, 12, 16, 85, 23, 43, 53, 63, 12, 24, 15, 12, 16, 85, 23])
array_c = array_a ** array_b

5.46 μs ± 3.02 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### 1.1.1 创建一个 Numpy 数组

1. 从 Python 元组或列表创建，使用 '''np.array()''' 函数进行创建：

In [3]:
import numpy as np

# 创建一维数组
list_data = [1, 2, 3, 4, 5]
array_1d = np.array(list_data)

print("一维数组:\n")
print(array_1d)

# 创建二维数组
list_2d_data = [[1, 2, 3], [4, 5, 6]]
array_2d = np.array(list_2d_data)

print("\n二维数组:\n")
print(array_2d)

一维数组:

[1 2 3 4 5]

二维数组:

[[1 2 3]
 [4 5 6]]


2. 创建特殊数组

In [4]:
zeros = np.zeros((3, 3))        # 创建全零数组
ones = np.ones((2, 4))          # 创建全一数组
rand = np.random.rand(5)        # 随机数

print(zeros)
print(ones)
print(rand)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]
[0.78325939 0.32183369 0.69618115 0.75811711 0.33290648]


### 1.1.2 数组操作和数组运算

1. 数组属性

In [5]:
zeros = np.zeros((3, 3))
print(zeros.shape)  # 输出数组的形状
print(zeros.ndim)   # 输出数组的维度
print(zeros.size)   # 输出数组的元素总数
print(zeros.dtype)  # 输出数组的数据类型

(3, 3)
2
9
float64


2. 索引 & 切片和运算

- 数组运算有广播机制，如果矩阵形状不匹配，会进行拉伸对齐

In [6]:
arr1 = np.array([[1, 2, 3, 4, 5]])
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10]])

# 范围切片: [起始:结束:步长]
print(arr2[:, 1:3])    # 输出第二列和第三列
print("\n")
print(arr2[1:3, 0:2])  # 输出第二行和第三行的前两列
print("\n")

print(arr1 + arr2)                         # 数组加法
print("\n")
print(arr1 * arr2)                         # 点乘
print("\n")
print(np.dot(arr1[:, :2], arr2))           # 叉乘
print("\n")
print(arr1 * 2)                            # 标量乘法
print("\n")
print(np.sum(arr1, axis=1))                # 和 (axis=1表示按行求和)
print("\n")
print(np.mean(arr1, axis=0))               # 平均值 (axis=0表示按列求平均)
print("\n")
print(np.max(arr1, axis=0))                # 最大值

[[2 3]
 [7 8]]


[[6 7]]


[[ 2  4  6  8 10]
 [ 7  9 11 13 15]]


[[ 1  4  9 16 25]
 [ 6 14 24 36 50]]


[[13 16 19 22 25]]


[[ 2  4  6  8 10]]


[15]


[1. 2. 3. 4. 5.]


[1 2 3 4 5]


3. 形状操作

In [7]:
arr = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10]])

print(arr.T)              # 转置数组
print("\n")
print(arr.flatten())      # 展平数组
print("\n")
print(arr.reshape(5, 2))  # 改变数组形状

[[ 1  6]
 [ 2  7]
 [ 3  8]
 [ 4  9]
 [ 5 10]]


[ 1  2  3  4  5  6  7  8  9 10]


[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]


4. 数组拼接

In [8]:
arr1 = np.array([[1, 2, 3, 4, 5]])
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10]])

print(np.vstack((arr1, arr2)))  # 垂直拼接
print("\n")
print(np.hstack((arr2, arr2)))  # 水平拼接

[[ 1  2  3  4  5]
 [ 1  2  3  4  5]
 [ 6  7  8  9 10]]


[[ 1  2  3  4  5  1  2  3  4  5]
 [ 6  7  8  9 10  6  7  8  9 10]]


## 1.2 Numpy 的应用

### 1.2.1 数据预处理