# NumPy 基础用法
NumPy 提供了两个基本的对象：
* ndarray：存储数据的多维数组
* ufunc：对数组进行处理的函数

## 创建数据

In [8]:
# 导入 numpy 库, 约定俗成别名为 np
import numpy as np

print(np.array([1, 2, 3]))
print(np.array((1, 2, 3)))
print("---------------")
# 同上
# array([1, 2, 3])

print(np.array(((1, 2), (1, 2))))
print(np.array(([1, 2], [1, 2])))
# 同上
# out:
# array([[1, 2],
#         [1, 2]])

[1 2 3]
[1 2 3]
---------------
[[1 2]
 [1 2]]
[[1 2]
 [1 2]]


In [27]:
print(np.arange(10))
# 10个, 不包括10，步长为 1
print(np.arange(3, 10, 0.1))
# 从 3 开始到时，步长为 0.1
# 从 2.0 开始到 3.0，生成均匀的 5 个值，不包括终终值 3.0
print(np.linspace(2.0, 3.0, num=5, endpoint=False))
# 返回一个 6x4 的随机数组，float 型
print(np.random.randn(6, 4))
# 指定范围指定形状的数组，整型
print(np.random.randint(3, 7, size=(2, 4)))
# 创建从0到20随机的5个数组
print(np.random.randint(0, 20, 5))
# array([ 9, 10, 14,  6, 14])
# 创建值为 0 的数组
print(np.zeros(6))
# 6个浮点 0.
print(np.zeros((5, 6), dtype=int))
# 5 x 6 整型 0
print(np.ones(4))
# 同上
print(np.empty(4))
# 同上
# 创建一份和目标结构相同的 0 值数组
print(np.zeros_like(np.arange(6)))
print(np.ones_like(np.arange(6)))
# 同上
print(np.arange(4).repeat(4))
# 将4个值依次重复四次，共16个
print(np.full((2, 4), 9))
# 两行四列值全为 9

[0 1 2 3 4 5 6 7 8 9]
[3.  3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.  4.1 4.2 4.3 4.4 4.5 4.6 4.7
 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3 6.4 6.5
 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.  8.1 8.2 8.3
 8.4 8.5 8.6 8.7 8.8 8.9 9.  9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9]
[2.  2.2 2.4 2.6 2.8]
[[ 1.31213151  0.54990784 -0.27932628 -0.78206162]
 [-0.11604815  0.89079474  0.35708475 -0.80225216]
 [-0.58308882 -0.21130321  0.08260098 -0.60639837]
 [ 0.0132391   1.21972001  0.32981893  1.19576479]
 [ 0.49188447  2.38748038  0.13413972 -1.12767813]
 [ 0.20081688  1.10947378  0.33750034  0.94757102]]
[[5 5 4 5]
 [4 4 4 6]]
[16 18  6 11  5]
[0. 0. 0. 0. 0. 0.]
[[0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]]
[1. 1. 1. 1.]
[1. 1. 1. 1.]
[0 0 0 0 0 0]
[1 1 1 1 1 1]
[0 0 0 0 1 1 1 1 2 2 2 2 3 3 3 3]
[[9 9 9 9]
 [9 9 9 9]]


## 类型

In [11]:
var = np.int64  # 有符号 64 位 int 类型
var = np.float32  # 标准双精度浮点类型
var = np.complex  # 由128位的浮点数组成的复数类型
var = np.bool  # TRUE 和 FALSE 的 bool 类型
var = np.object  # Python 中的 object 类型
var = np.string  # 固定长度的 string 类型
var = np.unicode  # 固定长度的 unicode 类型

var = np.NaN  # np.float 的子类型
var = np.nan

# np 所有数据类型
np.sctypeDict  # np.typeDict 将弃用

## 数组信息

In [35]:
n = np.array([1, 2, 3, 4])
print(n.shape)
# 数组的形状, 返回值是一个元组
n.shape = (4, 1)  # 改变形状
print(n.shape)
n = n.reshape((2, 2))  # 改变原数组的形状创建一个新的
print(n.shape)
print(n.dtype)
# 数据类型
print(n.ndim)
# 维度数
print(n.size)
# 元素数

(4,)
(4, 1)
(2, 2)
int32
2
4


## 计算

In [43]:
print(np.array([10, 20, 30, 40])[:3])
# 支持类似列表的切片
a = np.array([10, 20, 30, 40])
b = np.array([1, 2, 3, 4])
print(a + b)
# array([11, 22, 33, 44]) 矩阵相加
print(a - 1)
# array([ 9, 19, 29, 39])
print(4 * np.sin(a))

# 以下举例数学函数，还支持非常多的数据函数
print(a.max())
# 40
print(a.min())
# 10
print(a.sum())
# 100
print(a.std())
# 11.180339887498949
print(a.all())
# True
# 所有为 True 则返回 True
print(a.cumsum())
# array([ 10,  30,  60, 100])
# axis = 0 按行累加
# axis = 1 按列累加
print(b.sum(axis=0))
# 多维可以指定方向
print(np.negative(a))
# 1 相反数

[10 20 30]
[11 22 33 44]
[ 9 19 29 39]
[-2.17608444  3.651781   -3.9521265   2.98045264]
40
10
100
11.180339887498949
True
[ 10  30  60 100]
10
[-10 -20 -30 -40]


## 逻辑

In [50]:
x = 10
print(np.where(x > 0, 1, 0))
# array(1)
print(np.logical_and(x > 0, x > 5))
# True
# 逻辑和
print(np.logical_or(x > 0, x < 5))
# True
# 逻辑或
print(np.logical_not(x > 5))
# False
# 逻辑非
print(np.logical_xor(x > 5, x == 0))
# 异或 True
# 异或：同 0 异 1

1
True
True
False
True


## 集合

In [54]:
x = np.array([1, 2, 3, 4])
y = np.array([1, 2, 4])
# 输出x和y的交集
print(np.intersect1d(x, y))
# 输出在x中不在y中的元素
print(np.setdiff1d(x, y))
# 输出x和y的并集
print(np.union1d(x, y))
# 输出x和y的异或集
print(np.setxor1d(x, y))

[1 2 4]
[3]
[1 2 3 4]
[3]


## 合并
https://zhuanlan.zhihu.com/p/356851664

In [87]:
# 以下方法传入的是一个 *arrays，如 (a1, a2, ...)
x = np.array([1, 2, 3, 4])
y = np.array([4, 5, 6])
y = np.append(y, 7)
# 追加, 可读性好占内存大
# axis = 1 按行堆叠
# axis = 2 按列堆叠
print(np.stack((x, y)))

[[1 2 3 4]
 [4 5 6 7]]


np.dstack(tup) 将列表中的数组沿深度方向进行拼接

In [86]:
x = np.array([1, 2, 3, 4])
y = np.array([4, 5, 6, 7])
# 按
print(np.dstack((x, y)))
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
print(np.dstack((a, b)))

[[[1 4]
  [2 5]
  [3 6]
  [4 7]]]
[[[1 2]]

 [[2 3]]

 [[3 4]]]


In [116]:
# 垂直合并
x = np.array([1, 2, 3, 4])
y = np.array([4, 5, 6, 7])
print(np.vstack((x, y)))
print("---------------")
# 水平合并
print(np.hstack((x, y)))
print("--------------")
# 增加新维度
x = np.arange(4)
# 初始的⼀维数组
print(x)
print(x.shape)
# 得到的⼆维数组
print(x[np.newaxis, :])
print(x[np.newaxis, :].shape)

print(x[:, np.newaxis])
print(x[:, np.newaxis].shape)
print("---------------")
# 得到的另⼀个⼆维数组

[[1 2 3 4]
 [4 5 6 7]]
---------------
[1 2 3 4 4 5 6 7]
--------------
[0 1 2 3]
(4,)
[[0 1 2 3]]
(1, 4)
[[0]
 [1]
 [2]
 [3]]
(4, 1)
---------------


In [170]:
# 针对多个矩阵或序列的合并操作
x = np.array([1, 2, 3, 4])
y = np.array([4, 5, 6, 7])
# axis = 0 按列拼接
# axis = 1 按行拼接
# 默认按列拼接
print(np.concatenate((x, y)))
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])
print(np.concatenate((x, y), axis=1))
print("----------------")
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])
xy = np.concatenate((x, y), axis=0)
print(xy)
# 按列分隔
a = np.split(xy, 2, axis=1)
print(a)
print(a[0].shape)
print("---------------")
# 按行分隔
xy = np.concatenate((x, y), axis=1)
print(xy)
a = np.split(xy, 2, axis=0)
print(a)
print(a[0].shape)
# 分隔

[1 2 3 4 4 5 6 7]
[[1 2 5 6]
 [3 4 7 8]]
----------------
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[array([[1],
       [3],
       [5],
       [7]]), array([[2],
       [4],
       [6],
       [8]])]
(4, 1)
---------------
[[1 2 5 6]
 [3 4 7 8]]
[array([[1, 2, 5, 6]]), array([[3, 4, 7, 8]])]
(1, 4)


# Numpy 数据类型

## 类型对象

In [173]:
dt = np.dtype('>i4')
print(dt.byteorder)
# '>'
print(dt.itemsize)
# 4
print(dt.name)
# 'int32'
# 对应的数组标量类型是 int32
print(dt.type is np.int32)
# True
print(np.float64 == np.dtype(np.float64) == np.dtype('float64'))
# True
print(np.float64 == np.dtype(np.float64).type)
# True

>
4
int32
True
True
True


In [174]:
dt = np.dtype([('name', np.unicode_, 16), ('grades', np.float64, (2,))])
print(dt['name'])
# dtype('<U16')
print(dt['grades'])
# dtype(('<f8', (2,)))

<U16
('<f8', (2,))


In [183]:
x = np.array([('Sarah', (8.0, 7.0)), ('John', (6.0, 7.0)), ('wsssssssssssssssy', (100, 99))], dtype=dt)
print(x[1])
# ('John', [6., 7.])
print(x[1]['grades'])
# array([6.,  7.])
print(x[1]['name'])
# 超出数组项限制，打印不全
print(x[2]['name'])
print(type(x[1]))
# <class 'numpy.void'>
print(type(x[1]['grades']))
# <class 'numpy.ndarray'>

('John', [6., 7.])
[6. 7.]
John
wsssssssssssssss
<class 'numpy.void'>
<class 'numpy.ndarray'>


## 构造数据类型

In [None]:
# 使用数组标量类型
np.dtype(np.int16)  # dtype('int16')
# 结构化类型，一个字段名“f1”，包含int16:
np.dtype([('f1', np.int16)])  # dtype([('f1', '<i2')])

# 结构化类型，一个名为“f1”的字段
# 其本身包含一个具有一个字段的结构化类型：
np.dtype([('f1', [('f1', np.int16)])])
# dtype([('f1', [('f1', '<i2')])])

# 结构化类型，两个字段：第一个字段包含无符号int
# 第二个字段包含int 32：
np.dtype([('f1', np.uint64), ('f2', np.int32)])
# dtype([('f1', '<u8'), ('f2', '<i4')])

# 使用数组协议类型字符串：
np.dtype([('a', 'f8'), ('b', 'S10')])
# dtype([('a', '<f8'), ('b', 'S10')])

# 使用逗号分隔的字段格式。形状为（2,3）
np.dtype("i4, (2,3)f8")
# dtype([('f0', '<i4'), ('f1', '<f8', (2, 3))])

# 使用元组，int 是固定类型，3 表示字段的形状
# void 是一种灵活的类型，这里的大小为10：
np.dtype([('hello', (np.int64, 3)), ('world', np.void, 10)])
# dtype([('hello', '<i8', (3,)), ('world', 'V10')])

# 将 int16 细分为 2 个 int8，称为x和y
# 0 和 1 是以字节为单位的偏移量：
np.dtype((np.int16, {'x': (np.int8, 0), 'y': (np.int8, 1)}))
# dtype((numpy.int16, [('x', 'i1'), ('y', 'i1')]))

# 使用字典。两个名为“gender”和“age”的字段：
np.dtype({'names': ['gender', 'age'], 'formats': ['S1', np.uint8]})
# dtype([('gender', 'S1'), ('age', 'u1')])

# 偏移量（字节），这里是0和25：
np.dtype({'surname': ('S25', 0), 'age': (np.uint8, 25)})
# dtype([('surname', 'S25'), ('age', 'u1')])

# Numpy 常量

## 常用常量
* numpy.inf：（正）无穷大
* numpy.nan：空值、非数值
* numpy.pi：圆周率 π
* numpy.e：自然数 e
* numpy.euler_gamma：欧拉常数 γ

## 无穷大

In [186]:
# inf
print(np.inf)
# 它是一个浮点型
print(type(np.inf))
# float

inf
<class 'float'>


In [187]:
print(np.inf == +np.inf)
# True
print(np.inf == -np.inf)
# False
print(np.inf + 1)
# inf
print(np.inf * 1)
# inf
print(np.inf / np.inf)
# nan
print(np.inf + (-np.inf))
# nan
print(np.array([np.inf]) / 0)
# array([inf])

True
False
inf
inf
nan
nan
[inf]


In [189]:
a = np.array([np.inf, -np.inf, 1])

# 显示哪些元素是正无穷大或负无穷大
print(np.isinf(a))
# array([ True,  True, False])
# 显示哪些元素为正无穷大
print(np.isposinf(a))
# array([ True, False, False])
# 显示哪些元素不是数字
print(np.isnan(a))
# array([False, False, False])
# 显示哪些元素为负无穷大
print(np.isneginf(a))
# array([False,  True, False])
# 显示哪些元素是有限的
print(np.isfinite(a))
# array([False, False,  True])

[ True  True False]
[ True False False]
[False False False]
[False  True False]
[False False  True]


### 空值 np.nan
IEEE 754 标准中非数字（NaN，Not a Number）的浮点表示，代表没有值。NaN 和NAN 是 nan 的等效定义，一般请使用 nan，而不是 NAN

In [196]:
# 浮点类型
print(type(np.nan))
# float
print(np.nan)
# nan
print(np.nan == np.inf)
# False
print(np.log(-1))
# nan
print(np.log([-1, 1, 2, np.e]))
# RuntimeWarning: invalid value
# array([        NaN,  0.        ,  0.69314718, 1])

<class 'float'>
nan
False
nan
[       nan 0.         0.69314718 1.        ]


  print(np.log(-1))
  print(np.log([-1, 1, 2, np.e]))


In [195]:
a = np.array([1, 2, np.nan])
# 显示哪些元素不是数字
print(np.isnan(a))
# array([False, False,  True])
# 显示哪些元素是有限的
print(np.isfinite(a))
# array([ True,  True, False])

[False False  True]
[ True  True False]


### 圆周率 np.pi

In [193]:
print(type(np.pi))
# float
print(np.pi)
# 3.141592653589793

<class 'float'>
3.141592653589793


### 自然数 e np.e

In [192]:
print(type(np.e))
# float
print(np.e)
# 2.718281828459045

<class 'float'>
2.718281828459045


### 欧拉常数 np.euler_gamma

In [191]:
print(type(np.e))
# float
print(np.euler_gamma)
# 0.5772156649015329

<class 'float'>
0.5772156649015329


## 其他常量

### 负零
NumPy 按 IEEE 算术二进制浮点标准（IEEE 754），负零被视为有限数

In [197]:
print(np.NZERO)
# -0.0
print(np.PZERO)
# 0.0
print(np.isfinite([np.NZERO]))
# array([ True])
print(np.isnan([np.NZERO]))
# array([False])
print(np.isinf([np.NZERO]))
# array([False])

-0.0
0.0
[ True]
[False]
[False]


### 正零
正零的浮点表示，正零被视为有限数

In [198]:
print(np.isfinite([np.PZERO]))
# array([ True])
print(np.isnan([np.PZERO]))
# array([False])
print(np.isinf([np.PZERO]))
# array([False])

[ True]
[False]
[False]


# NumPy 数组的广播

广播（Array Broadcasting）描述的是 NumPy 如何计算不同形状的数组之间的运算。如果是较大的矩阵和较小的矩阵进行运算的话，较小的矩阵就会被广播

## 理解广播

In [200]:
a = np.array([1.0, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])
print(a * b)
# array([ 2.,  4.,  6.])

[2. 4. 6.]


当数组的形状满足某些约束时，NumPy 的广播规则会放宽这个约束。最简单的广播示例是在操作中组合数组和标量值时：

In [201]:
a = np.array([1.0, 2.0, 3.0])
b = 2.0
print(a * b)
# array([ 2.,  4.,  6.])

[2. 4. 6.]
