In [1]:
import numpy as np
np.set_printoptions(precision=4, threshold=15,suppress=True)

# dtype
数据类型对象描述了对应于数组的固定内存块的解释，取决于以下方面：
  - 数据类型（整数、浮点或者 Python 对象）
  - 数据大小
  - 字节序（小端或大端）
  - 在结构化类型的情况下，字段的名称，每个字段的数据类型，和每个字段占用
    的内存块部分。
  - 如果数据类型是子序列，它的形状和数据类型。

字节顺序取决于数据类型的前缀 < 或 > 。 < 意味着编码是小端（最小有效字节
存储在最小地址中）。 > 意味着编码是大端（最大有效字节存储在最小地址
中）。

dtype 可由一下语法构造：
numpy.dtype(object, align, copy)
参数为：
- Object ：被转换为数据类型的对象。
- Align ：如果为 true ，则向字段添加间隔，使其类似 C 的结构体。
- Copy ? 生成 dtype 对象的新副本，如果为 flase ，结果是内建数据类型
对象的引用。

每个内建类型都有一个唯一定义它的字符代码：
- 'b' ：布尔值
- 'i' ：符号整数
- 'u' ：无符号整数
- 'f' ：浮点
- 'c' ：复数浮点
- 'm' ：时间间隔
- 'M' ：日期时间
- 'O' ：Python 对象
- 'S', 'a' ：字节串
- 'U' ：Unicode
- 'V' ：原始数据（ void ）

In [None]:
dt1 = np.dtype(np.int32)
dt2 = np.dtype('<i4')
dt1, dt2

In [None]:
# 创建结构化数据类型
dt_age = np.dtype([('age', '<u1')])  # 字段age名称和相应的标量数据类型uint8
dt_age

In [None]:
# 使用dt_age类型创建矩阵
array = np.array([(1, ), (2, ), (3, )], dtype=dt_age)
print(array)  # [(1,) (2,) (3,)]
print(array['age'])  # 访问age列 [1 2 3]

In [None]:
# 创建student类型 数据对象
dt_student = np.dtype([('name', 'S20'), ('age', '<u1'), ('marks', 'f4')])
dt_student

In [None]:
# 使用student类型
students = np.array([('Jack', 16, 30.1), ('Rose', 17, 11.2)], dtype=dt_student)
print('students:',  students, students.shape)

In [None]:
students.itemsize  # 每个元素的字节单位长度  20+1+4

In [None]:
print(students.flags)

```
  C_CONTIGUOUS : True  数组位于单一的、C 风格的连续区段内
  F_CONTIGUOUS : True  数组位于单一的、Fortran 风格的连续区段内
  OWNDATA : True  数组的内存从其它对象处借用
  WRITEABLE : True  数据区域可写入。 将它设置为 flase 会锁定数据，使其只读
  ALIGNED : True  数据和任何元素会为硬件适当对齐
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False 这个数组是另一数组的副本。当这个数组释放时，源数组会由这个数组中的元素更新
```

# 矩阵初始化 属性

In [None]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], np.int)

In [None]:
print(array.shape, array.dtype, array.ndim)

In [None]:
array[:,1]  # 切片

In [None]:
array.T  # 转置 

## 初始化 使用特定数据

In [None]:
array0 = np.zeros((3, 4))  # 创建全零数组  zeros(shape, dtype, order)
array0

In [None]:
np.ones((4, 3), np.int)  # 创建全1数组

In [None]:
np.empty((2, 3))  # 全空数组 数组元素为随机值，因为它们未初始化

In [None]:
# 全0矩阵 自定义类型
np.zeros((2, 2), dtype=[('x', 'i4'), ('y', 'f')])

In [None]:
# 单位矩阵，对角线元素为 1，其他位置为零。
np.eye(3, M=4, k=0, dtype='i1')

In [None]:
np.eye(3, M=4, k=1, dtype='i1')

In [None]:
# np.identity?
# The identity array is a square array with ones on
# the main diagonal

In [None]:
np.identity(5, dtype='i1')

In [None]:
# python序列转numpy ndarray
x = [[(1, 2, 3), (2, 3)],[(2, 3, 5), (1,)]]
np.asarray(x)

In [None]:
# frombuffer  此函数将缓冲区解释为一维数组
s = b"Hello World"
np.frombuffer(s, dtype='S1')

In [None]:
# fromiter 从可迭代对象中构建一个ndarray对象(一维数组)
np.fromiter(range(10), dtype='u1')

In [None]:
np.arange(10, 20, 2)  # 创建连续数组

In [None]:
np.arange(12).reshape((4, 3))  # 使用 reshape 改变数据的形状 4*3

In [None]:
np.linspace(1, 10, 20)  # 创建线段型数据
#  # 开始端1，结束端10，且分割成20个数据，生成线段

In [None]:
# logspace 对数刻度 以10 为底数
np.logspace(1, 6, num=6, dtype='i4')

In [None]:
# 底数2
np.logspace(1, 6, num=6, dtype='i1', base=2)

# 索引


In [None]:
# 一维索引
A = np.arange(1, 10)
A[1], A[-1]

In [None]:
# 二维索引
A = np.arange(1, 10).reshape((3, 3))
A[2,1], A[1][1]

In [None]:
# 使用省略号
A[..., 1]

In [None]:
# 切片
A[1, 0:2]

## 高级索引

In [None]:
x = np.array([[1, 2], [3, 4], [5, 6]])
x

In [None]:
# 整数索引
x[[0, 1, 2], [0, 1, 0]]  # 选取(0, 0) (1, 1) (2, 0)处元素

In [None]:
x = np.arange(12).reshape((4, 3))
x

In [None]:
row_index = np.array([[0, 0], [3, 3]])
col_index = np.array([[0, 2], [0, 2]])
y = x[row_index, col_index]
y  # x对角线元素

In [None]:
# 行使用切片, 列使用高级索引(会引起复制)
y = x[1:4, [1, 2]]
y

In [None]:
# 布尔索引
x[x>5]

In [None]:
a = np.array([np.nan, 1, 2, 4, np.nan, 5])
a[~np.isnan(a)]  # ~取补

In [None]:
# 过滤出复数元素
a = np.array([1, 2+3j, 5, 3.5+2j])
a[np.iscomplex(a)]

# copy & view
在执行函数时，其中一些返回输入数组的副本，而另一些返回视图。 当内容物理存
储在另一个位置时，称为副本。 另一方面，如果提供了相同内存内容的不同视图，
我们将其称为视图。
## 无复制
简单的赋值不会创建数组对象的副本。相反，它使用原始数组的相同id()来访问它

In [None]:
a = np.arange(24).reshape(3, 8)
b = a
id(a), id(b)

In [None]:
b.shape = 4, 6
a  # a的形状也改变了

# 视图view或浅复制
生成新的数组对象，并可查看原始数组的相同数据,   
当修改视图时，原始数据也被修改

In [None]:
a = np.arange(6).reshape(3, 2)
b = a.view()
id(a), id(b)  # id 不同

In [None]:
# 新数组的维数更改不会更改原始数据的维数
b.shape = 2, 3
b

In [None]:
a

In [None]:
np.may_share_memory(a, b)  # 确认两个数组是否共享相同的内存块

In [None]:
a[-1, -1] = 111
b

 数组切片 也会产生视图  
a_view1 = a[1:2, 3:6]    # 切片 slice  
a_view2 = a[:100]        # 同上  
a_view3 = a[::2]         # 跳步  
a_view4 = a.ravel()      # 展平  

# 深复制 ndarray.copy() 
数组及其数据的完整副本，不与原始数组共享。

In [None]:
a = np.array([[1, 2], [3, 4], [9, 100]])
b = a.copy()
id(a), id(b)

In [None]:
np.may_share_memory(a, b)

In [None]:
b[0, 0] = 0
b

In [None]:
a

In [None]:
a_copy1 = a[[1,2], [0, 1]]   # 用 index 选  
a_copy2 = a[[True, True, False], [False, True]]  # 用 mask
a_copy3 = a[[1,2], :]        # 虽然 1,2 的确连在一起了, 但是他们确实是 copy

# 基础运算

In [None]:
a = np.array([10, 20, 30, 40])
b = np.arange(4)
a - b

In [None]:
a + b

In [None]:
a * b  # 对应元素相乘 不是矩阵乘法

In [None]:
b ** 2  # 每个元素的乘方

In [None]:
a / b

In [None]:
b < 3  # 逻辑判断

In [None]:
a == b

In [None]:
np.array_equal(a, b)  # 数组级别的对比

In [None]:
# power
a = np.array([2, 3, 5, 7])
b = np.array([1, 2, 2, 1])
np.power(a, b)

In [None]:
# mod remainder
np.mod(a, b)  # 余数

In [None]:
np.remainder(a, b)

**逻辑操作**：

In [None]:
a = np.array([1, 1, 0, 0], dtype=bool)
b = np.array([1, 0, 1, 0], dtype=bool)

In [None]:
np.logical_or(a, b)  # a | b

In [None]:
np.logical_and(a, b)  # a & b

In [None]:
np.logical_xor(a, b)  # a ^ b

In [None]:
np.logical_not(a)  # ~a

In [None]:
a = np.array([0.25, 1, 0, 100])
np.reciprocal(a)  # 计算倒数 0->inf

In [None]:
np.reciprocal(111)  # 大于 1 的整数元素，结果始终为 0

**舍入 around floor ceil**

In [None]:
a = np.array([1.0,5.55, 123, 0.567, 25.532])
print("around:", np.around(a, decimals=1))
print("around:", np.around(a, decimals=-1))
print("floor:", np.floor(a))  # 返回不大于输入参数的最大整数
print("ceil:", np.ceil(a))  # 函数返回输入值的上限(最小整数)

**[超越函数](http://baike.baidu.com/link?url=3aAGiGcMZFhxRP7D1CWzajcHf-OVCM6L6J1Eaxv1rPxFyEYKRoHXHdcYqKfUIc0q-hcxB_UoE73B5O0GyH1mf_)**

In [None]:
a = np.arange(5)
np.sin(a)  # 对每个元素求三角函数

In [None]:
np.log(a)

In [None]:
np.exp(a)

**变换**
triu: 返回矩阵的副本，其中第k个对角线以下的元素为零。  
tril: 第k个对角线以上的元素为零

In [None]:
a = np.triu(np.arange(16).reshape(4, 4), -1)
a

In [None]:
a = np.tril(np.arange(16).reshape(4, 4), 1)
a

In [None]:
np.clip(a, 4, 11)  # 小于最小值或大于最大值的会被转为最大或最小值

**np.allclose**
Returns True if two arrays are element-wise equal within a tolerance.  
np.allclose(a, b, rtol=1e-05, atol=1e-08, equal_nan=False)  
rtol : float  
    The relative tolerance parameter (see Notes). 相对公差  
atol : float  
    The absolute tolerance parameter (see Notes). 绝对公差  

In [None]:
np.allclose([1e10,1e-7], [1.00001e10,1e-8])

In [None]:
np.allclose([1e10,1e-8], [1.00001e10,1e-9])

## 基础简化

In [None]:
np.random.seed(12345)
rand_a = np.random.randint(1, 100, (2, 4))

In [None]:
np.max(rand_a), np.min(rand_a), np.sum(rand_a), np.average(rand_a)

In [None]:
np.max(rand_a, axis=1)  # 每一行最大

In [None]:
rand_a.sum(axis=0)  # 每一列之和

In [None]:
rand_a.mean()  # 算数平均值

In [None]:
rand_a.std()  # 标准差

In [None]:
np.median(a)  # 中值

In [None]:
a = np.arange(13, 1, -1).reshape((3, 4))
a

In [None]:
np.cumsum(a)  # 从头累加尾 产生的新array  1d

In [None]:
np.diff(a)  # 累差

In [None]:
np.nonzero(a)  # 将所有非零元素的行与列坐标分割开，重构成两个分别关于行和列的矩阵

**percentile(a, q, axis)**  
表示小于这个值得观察值占某个百分比  
一个多维数组的任意百分比分位数，此处的百分位是从小到大排列

In [None]:
a = np.array([[30,40,70],[80,20,10],[50,90,60]])

In [None]:
np.percentile(a, 60)  # 处于60%分位的数值

In [None]:
np.percentile(a, 50, axis=0)  # 处于50%分位的数值, 沿着0轴

**排序**

In [None]:
np.sort(a, axis=-1)  # 每一行排序

In [None]:
np.sort(a, axis=None)  # 排序,展平

**间接排序：argsort**

In [None]:
values = np.array([5, 0, 1, 3, 2])
indexer = values.argsort()
indexer  # 原array元素的序号

In [None]:
values[indexer]

**逻辑运算**：

In [None]:
np.all([True, True, False])

In [None]:
np.any([True, True, False])

# array 上的操作

**广播 boardcast**
如果满足以下规则，可以进行广播：
- ndim 较小的数组会在前面追加一个长度为 1 的维度。
- 输出数组的每个维度的大小是输入数组该维度大小的最大值。
- 如果输入在每个维度中的大小与输出大小匹配，或其值正好为 1，则在计算中
  可它。
- 如果输入的某个维度大小为 1，则该维度中的第一个数据元素将用于该维度的
  所有计算。
  
如果上述规则产生有效结果，并且满足以下条件之一，那么数组被称为可广播的。
- 数组拥有相同形状。
- 数组拥有相同的维数，每个维度拥有相同长度，或者长度为 1。
- 数组拥有极少的维度，可以在其前面追加长度为 1 的维度，使上述条件成立。

In [None]:
a = np.array([[0, 0, 0], [10, 10, 10], [20, 20, 20]])  # (3, 3)
b = np.array([1, 2, 3])  # (3, ) 
a + b

一个有用的技巧：

In [None]:
b.shape

In [None]:
b = b[np.newaxis, :]
b

In [None]:
b.shape

In [None]:
a + b

In [None]:
x = np.array([[1], [2], [3]])
y = np.array([4, 5, 6])  # 追加一个长度为 1 的维度[[4, 5, 6]]
b = np.broadcast(x, y)
b  #  它拥有 iterator 属性，基于自身组件的迭代器元组

In [None]:
b.shape

**tile的使用**  
Construct an array by repeating A the number of times given by reps.

In [None]:
b = np.arange(4)
np.tile(b, 2)

In [None]:
np.tile(b, (2, 2))

**rollaxis**  
向后滚动特定的轴，其它轴的相对位置不会改变

In [None]:
a = np.arange(8).reshape(2, 2, 2)
a

In [None]:
np.rollaxis(a, 2) # 将轴2滚动到轴0
# 轴2 一维数组内 [0 , 1] -> 轴0 二个二维数组

**swapaxes** 交互2个轴

In [None]:
np.swapaxes(a, 2, 0)
# 轴0 2个二维数组 对应元素 (0, 4) (1, 5) (2, 6) (3, 7)
# 轴2 一维数组内2个元素  (0, 1), (2, 3), (4, 5) (6, 7)

**expand_dims** 扩展数组

In [None]:
a = np.arange(4)
b = np.expand_dims(a, 0)
c = np.expand_dims(a, 1)
print('a:\n', a, a.shape)
print("扩展数组b\n", b, b.shape)
print("扩展数组c\n", c, c.shape)

**squeeze** 函数从给定数组的形状中删除一维条目

In [None]:
x = np.arange(9).reshape(1, 3, 3, 1)
x

In [None]:
y = np.squeeze(x)
y

**resize** 
返回指定大小的新数组  
新大小大于原始大小，则包含原始数组中的元素的重复副本

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a

In [None]:
np.resize(a, (3, 2))

In [None]:
np.resize(a, (3, 3))

**append**

In [None]:
np.append(a, [7, 8, 9])  # 会被展开

In [None]:
np.append(a, [[7, 8, 9]], axis=0)  # 在轴0添加元素

In [None]:
np.append(a, [[10], [10]], axis=1)

**insert**

In [None]:
a = np.array([[1,2],[3,4],[5,6]])
a

In [None]:
np.insert(a, 2, [0, 0])  # 没有传递轴, 展开

In [None]:
np.insert(a, 1, [0], axis=0)  # 指定轴0, 广播

In [None]:
np.insert(a, 1, [0], axis=1)  # 指定轴1, 广播

**delete**

In [None]:
a = np.arange(12).reshape((3, 4))
a

In [None]:
np.delete(a, 5)  # 删除, 没有axis, 展开

In [None]:
np.delete(a, 1, axis=1)  # 删除, 第2列

In [None]:
np.delete(a, a[a>5])  # 删除大于5的元素

**unique** 去重

In [None]:
a = np.array([1, 2, 2, 8, 4, 5, 5, 7, 6])

In [None]:
np.unique(a)

In [None]:
u, indices_u, indices_all = np.unique(a, return_index=True, return_inverse=True)
print("去重后序列:", u)
print("不重复的元素的下标", indices_u)
print("利用去重后元素构成原始数据", indices_all, u[indices_all])

**byteswap 大小端切换**

In [None]:
a = np.array([0x0001, 0x0100, 0x2233], dtype=np.int16)  # 2个字节保存
list(map(hex, a))

In [None]:
a.byteswap(True)  # 原地交换
list(map(hex, a))

**将条件逻辑表述为数组运算**

In [None]:
np.random.seed(12345)
array = np.random.randn(4, 4)
array

In [None]:
np.where(array>0, 2, -2)

In [None]:
np.where(array > 0, 2, array)

In [None]:
x = np.arange(8)
condition = np.mod(x, 2) == 0
condition

In [None]:
np.extract(condition, x)  # 使用条件取值

**展平**

In [None]:
a = np.arange(1, 10).reshape((3, 3))
a

In [None]:
a.ravel()

In [None]:
a.flatten()

In [None]:
for item in a.flat:  # 一个迭代器
    print(item, end=', ')

**添加纬度newaxis**

In [None]:
z = np.array([1, 2, 3])
z

In [None]:
z[:, np.newaxis]

In [None]:
z[np.newaxis, :]

## 矩阵合并与分割
```
1. concatenate 沿着现存的轴连接数据序列
2. stack 沿着新轴连接数组序列
3. hstack 水平堆叠序列中的数组（列方向）
4. vstack 竖直堆叠序列中的数组（行方向）
```

In [2]:
A = np.array([1, 2, 3 ,4])
B = np.array([2, 4, 6, 8])

In [3]:
np.stack((A, B), axis=0)  # 沿新轴0堆叠两个数组

array([[1, 2, 3, 4],
       [2, 4, 6, 8]])

In [4]:
np.stack((A, B), axis=1)  # 沿新轴1堆叠两个数组

array([[1, 2],
       [2, 4],
       [3, 6],
       [4, 8]])

In [None]:
np.vstack((A, B))  # 垂直（行）按顺序堆叠数组。

In [None]:
np.hstack((A, B))  # 水平（按列）顺序堆叠数组。

In [None]:
A = A[:, np.newaxis]
B = B[:, np.newaxis]
A

In [None]:
# 合并多个矩阵
np.concatenate((A, B, B, A), axis=0)  # 沿着现存的轴0合并 

In [None]:
np.concatenate((A, B, B, A), axis=1) 

**split 分割**

In [None]:
array = np.arange(12).reshape(3, 4)
array

In [None]:
np.split(array, 2, axis=1)  # 1沿着纵轴分割 分成2部分

In [None]:
np.split(array, 3, axis=0)  # 0按横轴分割 分成3部分

In [None]:
array1 = np.arange(20).reshape(5, 4)
array1

In [None]:
np.split(array1, [2, 3], axis=0)  # 界定分割后范围  [:2]  [2:3]  [3:]

In [None]:
np.vsplit(array1, 5)  # 垂直方向上分割

In [None]:
np.hsplit(array1, [1, 2])  # 水平方向上分割

## 面具数组（maskedarray）: 处理缺失值（的传播）
* 对于浮点不能用NaN，但是面具对所有类型都适用：

In [None]:
x = np.ma.array([1, 2, 3, 4], mask=[0, 1, 0, 1])
x

In [None]:
y = np.ma.array([1, 2, 3, 4], mask=[0, 1, 1, 1])
x + y

In [None]:
np.ma.sqrt([1, -1, 2, -2])

## 高级操作
**多项式**

In [None]:
p = np.poly1d([3, 2, -1])
print(p)

In [None]:
p(1)

In [None]:
p.roots

In [None]:
p.order

In [None]:
p = np.polynomial.Polynomial([-1, 2, 3]) # 系数的顺序不同！
p

In [None]:
p.roots()

In [None]:
p.degree()  # 在普通的多项式中通常不暴露'order'

## 加载和保存文件

In [None]:
arr = np.arange(10)
# npy格式
np.save('array', arr)

In [None]:
np.load('array.npy')

In [None]:
# 简单文本格式
a = np.arange(9).reshape(3, 3)
np.savetxt('array.txt', a)

In [None]:
np.loadtxt('array.txt')

In [None]:
import datetime
def strptime(s):
    # 字符串转为datetime 对象  再获取对应的weekday
    return datetime.datetime.strptime(s.decode(), '%m/%d/%Y %H:%M%p').weekday()

In [None]:
np.loadtxt('stocks.csv', delimiter=',', converters={2:strptime}, usecols=(1, 2))

In [None]:
p, d = np.loadtxt('stocks.csv', delimiter=',', converters={2:strptime}, usecols=(1, 2), unpack=True)
p, d

## 线性代数
子模块 numpy.linalg 实现了基础的线性代数，比如解开线性系统，奇异值分解等。但是，并不能保证以高效的方式编译，因此，建议使用 scipy.linalg
1. dot 两个数组的点积
2. vdot 两个向量的点积
3. inner 两个数组的内积
4. matmul 两个数组的矩阵积
5. determinant 数组的行列式
6. solve 求解线性矩阵方程
7. inv 寻找矩阵的乘法逆矩阵 A*(A^-1) = I

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[11, 12], [13, 14]])
np.dot(a, b)

In [None]:
np.inner(np.array([1, 2, 3]), np.array([0, 1, 0]))  # # 1*0 + 2*1 + 3*0

In [None]:
# 对于更高的维度，它返回最后一个轴上的和的乘积
np.inner(a, b)
# 1*11+2*12, 1*13+2*14
# 3*11+4*12, 3*13+4*14

**numpy.matmul()**   
函数返回两个数组的矩阵乘积。  
虽然它返回二维数组的正常乘积，但如果任一参数的维数大于2，则将其视为存在于最后两个索引的矩阵的栈，并进行相应广播。  另一方面，如果任一参数是一维数组，则通过在其维度上附加 1 来将其提升为矩阵，并在乘法之后被去除

In [None]:
a = [[1, 0], [0, 1]]
b = [[4, 1], [2, 2]]

In [None]:
np.matmul(a, b)

In [None]:
b = [1, 2]
np.matmul(a, b)

In [None]:
b = np.arange(1, 10).reshape(3, 3)
np.linalg.det(b)

In [None]:
import scipy as sp
from scipy import linalg
linalg.det(b)

**np.linalg.norm 求范数**

np.linalg.norm(x, ord=None, axis=None, keepdims=False)

|ord  |  norm for matrices  |           norm for vectors|
|-|-|-|
|None |  Frobenius norm |               2-norm|
|'fro'|  Frobenius norm |               --|
|'nuc' | nuclear norm       |           --|
|inf  |  max(sum(abs(x), axis=1)) |     max(abs(x))|
|-inf |  min(sum(abs(x), axis=1)) |     min(abs(x))|
|0 |     --                      |      sum(x != 0)|
|1  |    max(sum(abs(x), axis=0)) |     as below|
|-1  |   min(sum(abs(x), axis=0))  |   as below|
|2   |   2-norm (largest sing. value)  |as below|
|-2  |   smallest singular value   |    as below|
|other|  --                     |       sum(abs(x) ** ord) ** (1./ord)|