# numpy

## create

In [9]:
import numpy as np

a = np.array([1, 2, 3])
print(a, a.shape)
print(a.T, a.T.shape)

[1 2 3] (3,)
[1 2 3] (3,)


In [28]:
a = np.arange(5) # [0 1 2 3 4]
print(a)
b = np.linspace(0, 1, 5) # [0.   0.25 0.5  0.75 1.  ]
print(b)
b2a = (5 - 1) * (b - 0) / (1 - 0) + 0
print(b2a)

[0 1 2 3 4]
[0.   0.25 0.5  0.75 1.  ]
[0. 1. 2. 3. 4.]


In [26]:
c = np.zeros((2, 3))
print(c)
d = np.ones((2, 3))
print(d)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]


In [27]:
e = np.random.random((2, 3))
print(e)

[[0.32385446 0.89339081 0.15316945]
 [0.87118496 0.50394242 0.35392605]]


## operation

In [31]:
a = np.arange(6)
b = a.reshape((2, 3))
print(a)
print(b)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


In [33]:
a = np.array([[1, 2, 3], 
              [4, 5, 6]])
b = np.array([[7, 8, 9]])
c1 = np.concatenate((a, b), axis=0) # dimension 0
c2 = np.vstack((a, b)) # vertical
print(c1)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [36]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
b = np.hsplit(a, 3) # horizontal
b_1, b_2, b_3 = b
print(b_1)
print(b_2)
print(b_3)
b2 = np.split(a, 3, axis=1) # dimension 1
print(b2)

[[1]
 [4]
 [7]]
[[2]
 [5]
 [8]]
[[3]
 [6]
 [9]]
[array([[1],
       [4],
       [7]]), array([[2],
       [5],
       [8]]), array([[3],
       [6],
       [9]])]


## indexing & slicing

In [37]:
a = np.array([1, 2, 3, 4, 5])

# 访问单个元素
print(a[0])

# 切片
print(a[1:4])

# 多维数组索引
b = np.array([[1, 2, 3], 
              [4, 5, 6]])
print(b[0, 1])
print(b[:, 1])

1
[2 3 4]
2
[2 5]


## math

In [38]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 数组加法
print(a + b)

# 数组乘法
print(a * b)

# 矩阵乘法
c = np.array([[1, 2], [3, 4]])
d = np.array([[5, 6], [7, 8]])
print(np.dot(c, d))
print(c.dot(d))
print(c @ d)

[5 7 9]
[ 4 10 18]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


In [40]:
a = np.array([1, 2, 3, 4, 5])

# 求和
print(np.sum(a))

# 均值
print(np.mean(a))

# \sum_{i=1}^{n} (x_i - \mu)^2 / n
# = \sum_{i=1}^{n} (x_i^2 - 2 * \mu * x_i + \mu^2) / n
# = \sum_{i=1}^{n} x_i^2 / n - 2 * \mu * \mu + \mu^2
print(np.sum(a ** 2) / a.size - np.mean(a) * np.mean(a))
print(np.var(a))
print(np.std(a))

# 最大值和最小值
print(np.max(a))
print(np.min(a))

15
3.0
2.0
2.0
1.4142135623730951
5
1


In [22]:
a2 = np.array([[1, 3]])
print(a2, a2.shape)
print(a2.T, a2.T.shape)
a22 = a2 @ a2.T
print(a22, a22.shape)
a22_r = a2.T @ a2
print(a22_r, a22_r.shape)
a22_d = a2 * a2.T
print(a22_d, a22_d.shape)
a22_d = a2.T * a2
print(a22_d, a22_d.shape)
# a22_s = a2 * a2
# print(a22_s, a22_s.shape)
# a22_m = a2.T * a2.T
# print(a22_m, a22_m.shape)

[[1 3]] (1, 2)
[[1]
 [3]] (2, 1)
[[10]] (1, 1)
[[1 3]
 [3 9]] (2, 2)
[[1 3]
 [3 9]] (2, 2)
[[1 3]
 [3 9]] (2, 2)


In [2]:
import numpy as np

x = np.array([[1,2],
              [3,4]])
np.repeat(x, [1,2], axis=1)

array([[1, 2, 2],
       [3, 4, 4]])

In [3]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
if 2 in [1, 2, 3]:
    print('yes')
elif 2 in [4, 5, 6]:
    print('no')

在数据分析中，常用的包中能够让你使用数学函数高效处理庞大的多维数组和矩阵的是 `NumPy`。`NumPy` 是 Python 语言的一个基础科学计算库，提供了支持高效操作大型多维数组和矩阵的功能，以及大量的数学函数库。

以下是一些 `NumPy` 的基本用法示例：

### 安装 NumPy

首先，使用 pip 安装 `NumPy`：

```sh
pip install numpy
```

### 基本用法示例

```python
import numpy as np

# 创建一个一维数组
array_1d = np.array([1, 2, 3, 4, 5])
print("一维数组:", array_1d)

# 创建一个二维数组（矩阵）
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组:\n", array_2d)

# 创建一个全零数组
zeros_array = np.zeros((3, 3))
print("全零数组:\n", zeros_array)

# 创建一个全一数组
ones_array = np.ones((2, 4))
print("全一数组:\n", ones_array)

# 创建一个单位矩阵
identity_matrix = np.eye(3)
print("单位矩阵:\n", identity_matrix)

# 数组的基本运算
array_sum = array_1d + 10
print("数组加法:", array_sum)

array_product = array_1d * 2
print("数组乘法:", array_product)

# 矩阵乘法
matrix_product = np.dot(array_2d, array_2d.T)
print("矩阵乘法:\n", matrix_product)

# 计算数组的均值、标准差等统计量
mean_value = np.mean(array_1d)
std_value = np.std(array_1d)
print("均值:", mean_value)
print("标准差:", std_value)
```

### NumPy 的优势

- **高效的多维数组对象**：`ndarray` 是一个强大的 N 维数组对象，支持快速的元素级操作。
- **丰富的数学函数库**：`NumPy` 提供了大量的数学函数，用于数组的快速运算。
- **广播机制**：`NumPy` 的广播机制允许不同形状的数组进行算术运算。
- **集成性强**：`NumPy` 与其他科学计算库（如 `SciPy`、`Pandas`、`Matplotlib` 等）无缝集成。

通过使用 `NumPy`，你可以高效地处理和分析庞大的多维数组和矩阵，极大地提高数据分析的效率和性能。

In [1]:
import numpy as np

# 创建一个一维数组
array_1d = np.array([1, 2, 3, 4, 5])
print("一维数组:", array_1d)

一维数组: [1 2 3 4 5]
