<img src='../res/numpy_ico.png'>

# NumPy 教程
**NumPy**(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发，2005 年，Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色，并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：
* 一个强大的N维数组对象 ndarray
* 广播功能函数
* 整合 C/C++/Fortran 代码的工具
* 线性代数、傅里叶变换、随机数生成等功能

# NumPy 应用
* **NumPy** 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。SciPy 是一个开源的 Python 算法库和数学工具包。
* **SciPy** 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
* **Matplotlib** 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。它为利用通用的图形用户界面工具包，如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口（API）。

## 1. [基础操作系列](#1.基础操作系列)
* [np.dtype函数原型](#np.dtype函数原型)
* [Ndarray对象](#Ndarray对象)
* [从现有数据创建数组](#从现有数据创建数组)
* [数值范围创建数组](#数值范围创建数组)

## 2. [产生特定的矩阵](#2.产生特定的矩阵)
* [empty()产生空数组](#empty()产生空数组)
* [zeros()函数](#zeros()函数)
* [zeros_like()函数](#zeros_like()函数)
* [ones()函数](#ones()函数)
* [ones_like()函数](#ones_like()函数)
* [full()函数](#full()函数)
* [eye()函数](#eye()函数)
* [identity()函数](#identity()函数)

* [随机数random.random()](#随机数random.random())
* [np.random()](#np.random())
* [指定随机数列表](#指定随机数列表)

## 3. [切片和索引](#3.切片和索引)
* [数组切片](#数组切片)
* [索引Indexing](#索引Indexing)
* [基于N维索引获取任意元素](#基于N维索引获取任意元素)
* [布尔索引](#布尔索引)
* [花式索引](#花式索引)

## 4. [数学运算与常用函数](#4.数学运算与常用函数)
* [数学函数](#数学函数)
* [算数函数](#算数函数)


## 5. [统计函数](#5.统计函数)
* [常见统计函数](#常见统计函数)
* [np.random.uniform()函数](#np.random.uniform()函数)
* [np.tile()函数](#np.tile()函数)
* [排序和条件刷选函数](#排序和条件刷选函数)

## 6. [矩阵计算相关](#6.矩阵计算相关)


## 7. [数组广播](#7.数组广播)

## 8. [矩阵拼接与分离](#8.矩阵拼接与分离)
* [矩阵拼接](#矩阵拼接)
* [矩阵分割](#矩阵分割)
* [副本和视图](#副本和视图)
* [元素添加与删除](#元素添加与删除)



## 9. [列表删除某些行或列](#9.列表删除某些行或列)

## 10. [数组遍历](#10.数组遍历)

## 11. [numpy位运算](#11.numpy位运算)

## 12. [字符串函数](#12.字符串函数)

---

---
# 1.基础操作系列

### np.dtype函数原型

``` python
class np.dtype(obj, align=False, copy=False)
```

**参数说明**

* **obj**：要转换为的数据类型对象

* **align**：如果为 true，填充字段使其类似 C 的结构体。

* **copy**：复制 dtype 对象 ，如果为 false，则是对内置数据类型对象的引用


**数据类型及描述**
* **bool_**：存储为一个字节的布尔值（真或假）
* **int_**：默认整数，相当于 C 的long，通常为int32或int64
* **intc**：相当于 C 的int，通常为int32或int64
* **intp**：用于索引的整数，相当于 C 的size_t，通常为int32或int64
* **int8**：字节（-128 ~ 127）
* **int16**：16 位整数（-32768 ~ 32767）
* **int32**：32 位整数（-2147483648 ~ 2147483647）
* **int64**：64 位整数（-9223372036854775808 ~ 9223372036854775807）
* **uint8**：8 位无符号整数（0 ~ 255）
* **uint16**：16 位无符号整数（0 ~ 65535）
* **uint32**：32 位无符号整数（0 ~ 4294967295）
* **uint64**： 64 位无符号整数（0 ~ 18446744073709551615）
* **float_**：float64的简写
* **float16**：半精度浮点：符号位，5 位指数，10 位尾数
* **float32**：单精度浮点：符号位，8 位指数，23 位尾数
* **float64**：双精度浮点：符号位，11 位指数，52 位尾数
* **complex_**：complex128的简写
* **complex64**：复数，由两个 32 位浮点表示（实部和虚部）
* **complex128**:复数，由两个 64 位浮点表示（实部和虚部）
---

**每个内建类型都有一个唯一定义它的字符代码：**

**int8, int16, int32, int64 四种数据类型可以使用字符串 'i1', 'i2','i4','i8' 代替**

* **'b'**：布尔值

* **'i'**：符号整数

* **'u'**：无符号整数

* **'f'**：浮点

* **'c'**：复数浮点

* **'m'**：时间间隔

* **'M'**：日期时间

* **'O'**：Python 对象

* **'S', 'a'**：字节串

* **'U'**：Unicode

* **'V'**：原始数据（void）

In [322]:
# 文件名称可用于访问 age 列的内容  
import numpy as np 
student = np.dtype([('name','S20'), ('age','i1'), ('marks','f4')]) 
a = np.array([('abc',21,50),('xyz',18,75)],dtype = student) 
a

array([(b'abc', 21, 50.), (b'xyz', 18, 75.)],
      dtype=[('name', 'S20'), ('age', 'i1'), ('marks', '<f4')])

### Ndarray对象

NumPy 中定义的最重要的对象是称为**ndarray**的N维数组类型。 它描述相同类型的元素集合。 可以使用基于零的索引访问集合中的项目。

``` python
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
```

**return**
* **np.ndarray**

**参数说明**

* **object**：任何暴露数组接口方法的对象都会返回一个数组或任何（嵌套）序列。

* **dtype**：数组的所需数据类型，可选。

* **copy**：可选，默认为true，对象是否被复制。

* **order**：C（按行）、F（按列）或A（任意，默认）。

* **subok**：默认情况下，返回的数组被强制为基类数组。 如果为true，则返回子类。

* **ndimin**：指定返回数组的最小维数。

### see also

    empty_like : Return an empty array with shape and type of input.
    ones_like : Return an array of ones with shape and type of input.
    zeros_like : Return an array of zeros with shape and type of input.
    full_like : Return a new array with shape of input filled with value.
    empty : Return a new uninitialized array.
    ones : Return a new array setting values to one.
    zeros : Return a new array setting values to zero.
    full : Return a new array of given shape filled with value.


### ndarray类

``` python
class ndarray(builtins.object):
    ndarray(shape, dtype=float, buffer=None, offset=0,strides=None, order=None)
```

**属性说明**

* **ndim**: 秩，即轴的数量或维度的数量
* **shape**: 数组的维度，对于矩阵，n 行 m 列
* **size**:	数组元素的总个数，相当于 .shape 中 n*m 的值
* **dtype**: ndarray 对象的元素类型
* **itemsize**:	ndarray 对象中每个元素的大小，以字节为单位
* **flags**: ndarray 对象的内存信息
    * **C_CONTIGUOUS (C)**: 数据是在一个单一的C风格的连续段中
    * **F_CONTIGUOUS (F)**: 数据是在一个单一的Fortran风格的连续段中
    * **OWNDATA (O)**: 数组拥有它所使用的内存或从另一个对象中借用它
    * **WRITEABLE (W)**: 数据区域可以被写入，将该值设置为 False，则数据为只读
    * **ALIGNED (A)**: 数据和所有元素都适当地对齐到硬件上
    * **UPDATEIFCOPY (U)**: 这个数组是其它数组的一个副本，当这个数组被释放时，原数组的内容将被更新
* **real**: ndarray元素的实部
* **imag**: ndarray 元素的虚部
* **data**:	包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，通常不需要使用

In [323]:
import numpy as np
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = "all" # 可同时输出多个结果

In [324]:
a = np.array([1,2,3]) # 基本的ndarray数组的创建
'ndim',a.ndim
'shape',a.shape
'size',a.size
'dtype',a.dtype
'itemsize',a.itemsize
'flags',a.flags
'real',a.real
'imag',a.imag
'data',a.data

('ndim', 1)

('shape', (3,))

('size', 3)

('dtype', dtype('int32'))

('itemsize', 4)

('flags',   C_CONTIGUOUS : True
   F_CONTIGUOUS : True
   OWNDATA : True
   WRITEABLE : True
   ALIGNED : True
   WRITEBACKIFCOPY : False
   UPDATEIFCOPY : False)

('real', array([1, 2, 3]))

('imag', array([0, 0, 0]))

('data', <memory at 0x000001D0A432A7C8>)

In [325]:
a = a.reshape((1,-1)) # reshape函数来调整数组大小
a.shape
a.ndim # 返回数组的维数
a.size
a.itemsize # 返回数组中每个元素的字节单位长度
a.flags # Bit-flags describing how this data type is to be interpreted

(1, 3)

2

3

4

  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

### 从现有数据创建数组
``` python
numpy.asarray(a, dtype = None, order = None)
```

**参数说明**
* **a**：任意形式的输入参数，比如列表、列表的元组、元组、元组的元组、元组的列表
* **dtype**：通常，输入数据的类型会应用到返回的ndarray
* **order**：'C'为按行的 C 风格数组，'F'为按列的 Fortran 风格数组

In [326]:
# 将列表转换为 ndarray
x =  [1,2,3] 
np.asarray(x) 

# 将元组转换为 ndarray
x =  (1,2,3) 
np.asarray(x) 

# 将元组列表转换为 ndarray
x =  [(1,2,3),(4,5)] 
np.asarray(x) 

# numpy.arange(start, stop, step, dtype)
# 从数值范围创建数组
np.arange(10,20,2, dtype =  float)

array([1, 2, 3])

array([1, 2, 3])

array([(1, 2, 3), (4, 5)], dtype=object)

array([10., 12., 14., 16., 18.])

numpy.fromiter 方法从可迭代对象中建立 ndarray 对象，返回一维数组
``` python
numpy.fromiter(iterable, dtype, count=-1)
```

**参数说明**

* **iterable**:	可迭代对象
* **dtype**: 返回数组的数据类型
* **count**: 读取的数据数量，默认为-1，读取所有数据

In [327]:
# 从任何可迭代对象构建一个ndarray对象，返回一个新的一维数组
list = range(5) 
it = iter(list)  
# 使用迭代器创建 ndarray 
np.fromiter(it, dtype =  float)

array([0., 1., 2., 3., 4.])

numpy.frombuffer 接受 buffer 输入参数，以流的形式读入转化成 ndarray 对象，用于实现动态数组。
``` python
numpy.frombuffer(buffer, dtype = float, count = -1, offset = 0)
```

**参数说明**

* **buffer**：可以是任意对象，会以流的形式读入。
* **dtype**：返回数组的数据类型，可选
* **count**：读取的数据数量，默认为-1，读取所有数据。
* **offset**：读取的起始位置，默认为0。

In [328]:
# Python3.x
s =  b'Hello World' 
a = np.frombuffer(s, dtype =  'S1')  
a

array([b'H', b'e', b'l', b'l', b'o', b' ', b'W', b'o', b'r', b'l', b'd'],
      dtype='|S1')

### 数值范围创建数组
numpy.linspace 函数用于创建一个一维数组，数组是一个**等差数列**构成的
``` python
numpy.linspace(start, stop, num, endpoint, retstep, dtype)
```

**参数说明**

* **start**：序列的起始值

* **stop**：序列的终止值，如果endpoint为true，该值包含于序列中

* **num**：要生成的等间隔样例数量，默认为50

* **endpoint**：序列中是否包含stop值，默认为ture

* **retstep**： 如果为true，返回样例，以及连续数字之间的步长

* **dtype**：输出ndarray的数据类型

In [329]:
np.linspace(10, 20, 5, endpoint=False)
np.linspace(1, 2, 5, retstep=True) 

array([10., 12., 14., 16., 18.])

(array([1.  , 1.25, 1.5 , 1.75, 2.  ]), 0.25)

In [330]:
# numpy.logscale(start, stop, num, endpoint, base, dtype)
# 返回一个ndarray对象，其中包含在对数刻度上均匀分布的数字。 
# 刻度的开始和结束端点是某个底数的幂，通常为 10。
np.logspace(1.0, 2.0, num=10, base=2) 

array([2.        , 2.16011948, 2.33305808, 2.5198421 , 2.72158   ,
       2.93946898, 3.1748021 , 3.42897593, 3.70349885, 4.        ])

numpy.arange 函数创建数值范围并返回 ndarray 对象
``` python
numpy.arange(start, stop, step, dtype)
```

**参数说明**
* **start**: 起始值，默认为0
* **stop**:	终止值（不包含）
* **step**:	步长，默认为1
* **dtype**: 返回ndarray的数据类型，如果没有提供，则会使用输入数据的类型

In [331]:
a = np.arange(10, 20, 2, dtype=float)
a

array([10., 12., 14., 16., 18.])

numpy.logspace 函数用于创建一个于**等比数列**
``` python
np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
```

**参数说明**

* **start**: 序列的起始值为：base ** start
* **stop**:	序列的终止值为：base ** stop。如果endpoint为true，该值包含于数列中
* **num**: 要生成的等步长的样本数量，默认为50
* **endpoint**:	该值为 ture 时，数列中中包含stop值，反之不包含，默认是True。
* **base**:	对数 log 的底数。
* **dtype**: ndarray 的数据类型

In [332]:
a = np.logspace(0, 9, 10, base=2)
a

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256., 512.])

---
# 2.产生特定的矩阵

### empty()产生空数组
``` python
numpy.empty(shape, dtype = float, order = 'C')
```

**参数说明**

* **shape**：数组形状
* **dtype**：数据类型，可选
* **order**：有"C"和"F"代表行优先和列优先，在计算机内存中的存储元素的顺序。

In [333]:
np.empty([3,2], dtype =  int) # 数组元素为随机值，因为它们未初始化

array([[0, 1],
       [2, 3],
       [4, 5]])

### zeros()函数
返回特定大小，以0填充的新数组
``` python
zeros(shape, dtype=float, order='C')
```

**参数说明**
* **Shape**：空数组的形状，整数或整数元组
* **dtype**：所需的输出数组类型，可选
* **order**：'C'为按行的 C 风格数组，'F'为按列的 Fortran 风格数组

In [334]:
a = np.zeros((3,3), dtype=float)
a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### zeros_like()函数
依据给定数组(a)的形状和类型返回一个新的元素全部为0的数组
``` python
zeros_like(a, dtype=None, order='K', subok=True)
```

**参数说明**
* **a**：给定数组的形状
* **dtype**：所需的输出数组类型，可选
* **order**：{‘C’, ‘F’, ‘A’, or ‘K’}, optional,Overrides the memory layout of the result. ‘C’ means C-order, ‘F’ means F-order, ‘A’ means ‘F’ if a is Fortran contiguous, ‘C’ otherwise. ‘K’ means match the layout of a as closely as possible.
* **subok**：bool, optional.If True, then the newly created array will use the sub-class type of ‘a’, otherwise it will be a base-class array. Defaults to True.

In [335]:
x = np.arange(6)
x = x.reshape((2, 3))

a = np.zeros_like(x)
a

b = x.copy()
b.fill(0)
b

array([[0, 0, 0],
       [0, 0, 0]])

array([[0, 0, 0],
       [0, 0, 0]])

### ones()函数
返回特定大小，以1填充的新数组
``` python
np.ones(shape, dtype=None, order='C')
```
**参数说明**
* **同zeros()**

In [336]:
a = np.ones((2,3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

### ones_like()函数
返回特定大小，以1填充的新数组
``` python
ones_like(a, dtype=None, order='K', subok=True)
```
**参数说明**
* **同zeros_like()**

In [337]:
x = np.arange(6)
x = x.reshape((2, 3))

a = np.ones_like(x)
a

b = x.copy()
b.fill(1)
b

array([[1, 1, 1],
       [1, 1, 1]])

array([[1, 1, 1],
       [1, 1, 1]])

### full()函数
``` python
np.full(shape, fill_value, dtype=None, order='C')
```
**参数说明**

* **shape**: 矩阵的纬度

* **fill_value**: 填充值

* **dtype**: 数据类型

* **order**: 有"C"和"F"代表行优先和列优先，在计算机内存中的存储元素的顺序。

In [338]:
a = np.full((4,3),2.3)
a

array([[2.3, 2.3, 2.3],
       [2.3, 2.3, 2.3],
       [2.3, 2.3, 2.3],
       [2.3, 2.3, 2.3]])

### eye()函数
返回一个对角线元素为1，其他元素为0的二维数组
``` python
np.eye(N, M=None, k=0, dtype=<class 'float'>, order='C')
```

**参数说明**

* **N**: 整数，返回数组的行数；

* **M**: 整数，可选，返回数组的列数。如果不赋值的话，默认等于N；

* **k**: 整数, 可选，对角线序列号: 0 对应主对角线；,整数对应upper diagonal,负数对应lower diagonal；

* **dtype**: dtype, 可选，返回数组的数据类型

In [339]:
a = np.eye(3, k=1)
a

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

### identity()函数
返回一个N维单位方阵
``` python
identity(n, dtype=None)
```

**参数说明**

* **n**: 整数,返回方阵的行列数

* **dtype**:数据类型，可选,返回方阵的数据类型，默认为float.

### 随机数random.random()
``` python
random_sample(size=None)

Return random floats in the half-open interval [0.0, 1.0).
```

In [340]:
a = np.random.random((3,4)) # np.random.random_sample((3,4))
a

array([[0.47725251, 0.4851217 , 0.46336804, 0.73940186],
       [0.00984081, 0.08541814, 0.92201825, 0.54875228],
       [0.57259218, 0.80978131, 0.05509176, 0.8153016 ]])

### np.random()
``` python
randint(low, high=None, size=None, dtype='l')

Return random integers from `low` (inclusive) to `high` (exclusive).
```

In [341]:
np.random.randint(1,10,3)

array([9, 1, 8])

### 指定随机数列表
``` python
choice(a, size=None, replace=True, p=None)

Generates a random sample from a given 1-D array
```

In [342]:
np.random.choice([1,3,7,10])

1

---
# 3.切片和索引

### 数组切片

In [343]:
a = np.arange(10)
a[slice(2,7,2)] # 索引2到7，步长为2，进行切片
a[2:7:2] # start:stop:step, 不包括stop

array([2, 4, 6])

array([2, 4, 6])

切片还可以包括省略号（...），来使选择元组的长度与数组的维度相同。 如果在行位置使用省略号，它将返回包含行中元素的ndarray。

In [344]:
a = np.array([[1,2,3],[3,4,5],[4,5,6]]) 

# 第二列的元素是  
a[...,1]  

# 第二行的元素是  
a[1,...]

# 第二列及其剩余元素是
a[...,1:]

array([2, 4, 5])

array([3, 4, 5])

array([[2, 3],
       [4, 5],
       [5, 6]])

### 索引Indexing

In [345]:
a = np.array([[1,2,3,4],
             [5,6,7,8],
             [9,10,11,12]])
a[-2:,1:3]
a[-2:][1:3]
a[-2:, 1:3]

array([[ 6,  7],
       [10, 11]])

array([[ 9, 10, 11, 12]])

array([[ 6,  7],
       [10, 11]])

### 基于N维索引获取任意元素

In [346]:
x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
x
x[[0,1,2],  [0,1,0]] # 数组中(0,0)，(1,1)和(2,0)位置处的元素

array([[1, 2],
       [3, 4],
       [5, 6]])

array([1, 4, 5])

In [347]:
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
x 
rows = np.array([[0,0],[3,3]]) 
cols = np.array([[0,2],[0,2]]) 
y = x[rows,cols] # 数组的每个角处的元素
y

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[ 0,  2],
       [ 9, 11]])

In [348]:
# 高级和基本索引可以通过使用切片:或省略号...与索引数组组合。 
# 以下示例使用slice作为列索引和高级索引。 当切片用于两者时，结果是相同的。 
# 但高级索引会导致复制，并且可能有不同的内存布局。
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
x 
z = x[1:4,1:3]  
z 
y = x[1:4,[1,2]]
y

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[ 4,  5],
       [ 7,  8],
       [10, 11]])

array([[ 4,  5],
       [ 7,  8],
       [10, 11]])

In [349]:
b = a[2:3, 1:3]
b
b.shape
b = a[2, 1:3]
b
b.shape

array([[10, 11]])

(1, 2)

array([10, 11])

(2,)

In [350]:
a
a[np.arange(3), 1] += 10
a


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

array([[ 1, 12,  3,  4],
       [ 5, 16,  7,  8],
       [ 9, 20, 11, 12]])

In [351]:
np.arange(3)
np.arange(3,7)
a[np.arange(3), [1,1,1]] += 10
a

array([0, 1, 2])

array([3, 4, 5, 6])

array([[ 1, 22,  3,  4],
       [ 5, 26,  7,  8],
       [ 9, 30, 11, 12]])

### 布尔索引

In [352]:
result_index = a>10
result_index
a[result_index] # a[a>10]

array([[False,  True, False, False],
       [False,  True, False, False],
       [False,  True,  True,  True]])

array([22, 26, 30, 11, 12])

In [353]:
# 从数组中过滤掉非复数元素
a = np.array([1, 2+6j, 5, 3.5+5j])  
a[np.iscomplex(a)]

array([2. +6.j, 3.5+5.j])

### 花式索引
花式索引指的是利用整数数组进行索引。

花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。对于使用一维整型数组作为索引，如果目标是一维数组，那么索引的结果就是对应位置的元素；如果目标是二维数组，那么就是对应下标的行。

花式索引跟切片不一样，它总是将数据复制到新数组中。


In [354]:
# 传入顺序索引数组
x = np.arange(32).reshape((8,4))
x

# 传入倒序索引数组
x = np.arange(32).reshape((8,4))
x[[-4,-2,-1,-7]]

# 传入多个索引数组（要使用np.ix_）
x = np.arange(32).reshape((8,4))
x[np.ix_([1,5,7,2],[0,3,1,2])]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

array([[16, 17, 18, 19],
       [24, 25, 26, 27],
       [28, 29, 30, 31],
       [ 4,  5,  6,  7]])

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

# 4.数学运算与常用函数

### 算数函数

NumPy 算术函数包含简单的加减乘除: add()，subtract()，multiply() 和 divide()

In [355]:
a = np.array([[1,2],
              [3,4]])
b = np.array([[5,6],
              [6,5]])

np.add(a,b) # a + b

np.subtract(a,b) # a - b

np.multiply(a,b) # a * b

np.divide(a,b) # a / b

np.sqrt(a)

array([[6, 8],
       [9, 9]])

array([[-4, -4],
       [-3, -1]])

array([[ 5, 12],
       [18, 20]])

array([[0.2       , 0.33333333],
       [0.5       , 0.8       ]])

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

In [356]:
a = np.array([[1,2],
              [3,4]])
b = np.array([[1,2,3],
             [4,5,6]])
a.dot(b) # np.dot(a,b)

array([[ 9, 12, 15],
       [19, 26, 33]])

In [357]:
b = np.array([[1,2],
              [3,4]])
np.exp(b)
np.exp2(b)
np.sqrt(b)
np.sin(b)
np.log(b)

array([[ 2.71828183,  7.3890561 ],
       [20.08553692, 54.59815003]])

array([[ 2.,  4.],
       [ 8., 16.]])

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ]])

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

numpy.reciprocal() 函数返回参数逐元素的倒数。如 1/4 倒数为 4/1

numpy.power() 函数将第一个输入数组中的元素作为底数，计算它与第二个输入数组中相应元素的幂

numpy.mod() 计算输入数组中相应元素的相除后的余数。 函数 numpy.remainder() 也产生相同的结果

In [358]:
np.reciprocal(np.array([0.25,  1.33,  1,  100]))

a = np.array([10,100,1000]) 
b = np.array([1,2,3]) 
np.power(a,2)
np.power(a,b)

a = np.array([10,20,30]) 
b = np.array([3,5,7])  
np.mod(a,b) # np.remainder(a,b)

array([4.       , 0.7518797, 1.       , 0.01     ])

array([    100,   10000, 1000000], dtype=int32)

array([        10,      10000, 1000000000], dtype=int32)

array([1, 0, 2], dtype=int32)

In [359]:
a = np.array([[1,2],
              [3,4]])
a.max()
a.min()

4

1

### 数学函数

NumPy 提供了标准的三角函数：sin()、cos()、tan()


In [360]:
a = np.array([0,30,45,60,90])

# 不同角度的正弦值
np.sin(a*np.pi/180) # 通过乘 pi/180 转化为弧度  

# 数组中角度的余弦值
np.cos(a*np.pi/180)

# 数组中角度的正切值)
np.tan(a*np.pi/180)

array([0.        , 0.5       , 0.70710678, 0.8660254 , 1.        ])

array([1.00000000e+00, 8.66025404e-01, 7.07106781e-01, 5.00000000e-01,
       6.12323400e-17])

array([0.00000000e+00, 5.77350269e-01, 1.00000000e+00, 1.73205081e+00,
       1.63312394e+16])

arcsin，arccos，和 arctan 函数返回给定角度的 sin，cos 和 tan 的反三角函数。

这些函数的结果可以通过 numpy.degrees() 函数将弧度转换为角度

In [361]:
a = np.array([0,30,45,60,90])  
# 含有正弦值的数组
sin = np.sin(a*np.pi/180)  
sin
# 计算角度的反正弦，返回值以弧度为单位
inv = np.arcsin(sin)  
inv
# 通过转化为角度制来检查结果
np.degrees(inv)

array([0.        , 0.5       , 0.70710678, 0.8660254 , 1.        ])

array([0.        , 0.52359878, 0.78539816, 1.04719755, 1.57079633])

array([ 0., 30., 45., 60., 90.])

In [362]:
cos = np.cos(a*np.pi/180)  
cos
# 反余弦
inv = np.arccos(cos)  
inv
# 角度制单位
np.degrees(inv)

array([1.00000000e+00, 8.66025404e-01, 7.07106781e-01, 5.00000000e-01,
       6.12323400e-17])

array([0.        , 0.52359878, 0.78539816, 1.04719755, 1.57079633])

array([ 0., 30., 45., 60., 90.])

In [363]:
# tan 函数
tan = np.tan(a*np.pi/180)  
tan
# 反正切
inv = np.arctan(tan)  
inv
# 角度制单位
np.degrees(inv)

array([0.00000000e+00, 5.77350269e-01, 1.00000000e+00, 1.73205081e+00,
       1.63312394e+16])

array([0.        , 0.52359878, 0.78539816, 1.04719755, 1.57079633])

array([ 0., 30., 45., 60., 90.])

numpy.around() 函数返回指定数字的**四舍五入**值

``` python
numpy.around(a,decimals)
```

**参数说明**

* **a**: 数组
* **decimals**: 舍入的小数位数。 默认值为0。 如果为负，整数将四舍五入到小数点左侧的位置

In [364]:
a = np.array([1.0, 5.55, 123, 0.567, 25.532])  
np.around(a)
np.around(a, decimals= 1)
np.around(a, decimals= -1)

array([  1.,   6., 123.,   1.,  26.])

array([  1. ,   5.6, 123. ,   0.6,  25.5])

array([  0.,  10., 120.,   0.,  30.])

numpy.floor() 返回数字的**下舍整数**

In [365]:
a = np.array([-1.7,  1.5,  -0.2,  0.6,  10])
np.floor(a)

array([-2.,  1., -1.,  0., 10.])

numpy.ceil() 返回数字的**上入整数**

In [366]:
a = np.array([-1.7,  1.5,  -0.2,  0.6,  10])  
np.ceil(a)

array([-1.,  2., -0.,  1., 10.])

---
# 5.统计函数

### 常见统计函数

numpy.amin() 用于计算数组中的元素沿指定轴的最小值。

numpy.amax() 用于计算数组中的元素沿指定轴的最大值。

In [367]:
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
a
np.amax(a)
np.amax(a, axis= 0)
np.amax(a, axis= 1)

array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

9

array([8, 7, 9])

array([7, 8, 9])

numpy.ptp()函数计算数组中元素最大值与最小值的差（最大值 - 最小值）

In [368]:
a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
np.ptp(a)
# 沿轴 1 调用 ptp() 函数
np.ptp(a, axis =  1)

# 沿轴 0 调用 ptp() 函数
np.ptp(a, axis =  0)

7

array([4, 5, 7])

array([6, 3, 6])

numpy.median() 函数用于计算数组 a 中元素的中位数（中值）

numpy.mean() 函数返回数组中元素的算术平均值。 
* ``` python np.mean(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)```
* 如果提供了轴，则沿其计算。算术平均值是沿轴的元素的总和除以元素的数量。

numpy.average() 函数根据在另一个数组中给出的各自的权重计算数组中元素的加权平均值。
* ``` python np.average(a, axis=None, weights=None, returned=False)```
* 该函数可以接受一个轴参数。 如果没有指定轴，则数组会被展开。
* 加权平均值即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数。
* 考虑数组[1,2,3,4]和相应的权重[4,3,2,1]，通过将相应元素的乘积相加，并将和除以权重的和，来计算加权平均值。
* 加权平均值 = (1*4+2*3+3*2+4*1)/(4+3+2+1)

In [369]:
# numpy.median() 函数
a = np.array([[30,65,70],[80,95,10],[50,90,60]])  
np.median(a)
np.median(a, axis= 0)

# numpy.mean() 函数
a = np.array([[1,2,3],[3,4,5],[4,5,6]])  
np.mean(a)
np.mean(a, axis= 0)

# numpy.average() 函数
a = np.array([1,2,3,4]) 
np.average(a) # 不指定权重时相当于 mean 函数
wts = np.array([4,3,2,1])  
np.average(a, weights=wts)
# 如果 returned 参数设为 true，则返回权重的和  
np.average([1,2,3,  4], weights=[4,3,2,1], returned=True)

65.0

array([50., 90., 60.])

3.6666666666666665

array([2.66666667, 3.66666667, 4.66666667])

2.5

2.0

(2.0, 10.0)

标准差是一组数据平均值分散程度的一种度量
* 标准差公式如下：std = sqrt(mean((x - x.mean())**2))

方差是每个样本值与全体样本值的平均数之差的平方值的平均数，即 mean((x - x.mean())** 2)。

In [370]:
np.std([1,2,3,4])
np.var([1,2,3,4])

1.118033988749895

1.25

百分位数是统计中使用的度量，表示小于这个值的观察值的百分比。 
``` python
numpy.percentile(a, q, axis)
```

**参数说明**

* **a**: 输入数组
* **q**: 要计算的百分位数，在 0 ~ 100 之间
* **axis**: 沿着它计算百分位数的轴

In [371]:
a = np.array([[10, 7, 4], [3, 2, 1]])

# 50% 的分位数，就是 a 里排序之后的中位数
np.percentile(a, 50)
 
# axis 为 0，在纵列上求
np.percentile(a, 50, axis=0)
 
# axis 为 1，在横行上求
np.percentile(a, 50, axis=1)
 
# 保持维度不变
np.percentile(a, 50, axis=1, keepdims=True)

3.5

array([6.5, 4.5, 2.5])

array([7., 2.])

array([[7.],
       [2.]])

np.sum()函数
``` python
np.sum(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)
Docstring:
Sum of array elements over a given axis.
```

In [372]:
a = np.array([[1,2],
              [3,4]])
np.sum(a)
np.sum(a, axis=0)
np.sum(a, axis=1)

10

array([4, 6])

array([3, 7])

### np.random.uniform()函数
``` python
np.random.uniform(low=0.0, high=1.0, size=None)

Draw samples from a uniform distribution.
```

In [373]:
np.random.uniform(3,4)
np.random.uniform(1,100)

3.183025852048236

46.31401809846465

### np.tile()函数
``` python
np.tile(A, reps)
Docstring:
Construct an array by repeating A the number of times given by reps.
```

In [374]:
a = np.array([[1,2],
              [3,4]])
np.tile(a,(1,2))
np.tile(a,(2,3))

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

array([[1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4],
       [1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4]])

In [375]:
a = np.array([0, 1, 2])
a
np.tile(a, 2)
np.tile(a, (2, 2))
np.tile(a, (2, 1, 2))

array([0, 1, 2])

array([0, 1, 2, 0, 1, 2])

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

array([[[0, 1, 2, 0, 1, 2]],

       [[0, 1, 2, 0, 1, 2]]])

### 排序和条件刷选函数

|  种类	|   速度	|   最坏情况	|    工作空间   |	稳定性   |
|   --   |    --  |        --  |       --    |       --  |
| 'quicksort'（快速排序）|	1	|O(n^2)	|0	|否|
|'mergesort' （归并排序）|2|	O(n*log(n))	|~n/2	|是|
|'heapsort'（堆排序）|  3	|O(n*log(n))|	0	|否|

numpy.sort() 函数返回输入数组的排序副本。函数格式如下：
``` python
numpy.sort(a, axis, kind, order)
```

**参数说明**

* **a**: 要排序的数组
* **axis**: 沿着它排序数组的轴，如果没有数组会被展开，沿着最后的轴排序， axis=0 按列排序，axis=1 按行排序
* **kind**: 默认为'quicksort'（快速排序）
* **order**: 如果数组包含字段，则是要排序的字段

In [376]:
a = np.array([[3,7],[9,1]])  
np.sort(a)

# 按列排序
np.sort(a, axis =  0)

# 在 sort 函数中排序字段 
dt = np.dtype([('name',  'S10'),('age',  int)]) 
a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
a
# 按 name 排序
np.sort(a, order='name')

array([[3, 7],
       [1, 9]])

array([[3, 1],
       [9, 7]])

array([(b'raju', 21), (b'anil', 25), (b'ravi', 17), (b'amar', 27)],
      dtype=[('name', 'S10'), ('age', '<i4')])

array([(b'amar', 27), (b'anil', 25), (b'raju', 21), (b'ravi', 17)],
      dtype=[('name', 'S10'), ('age', '<i4')])

numpy.argsort() 函数返回的是数组值从小到大的**索引值**
``` python
argsort(axis=-1, kind='quicksort', order=None)
Returns the indices that would sort this array.
```

In [377]:
a = np.array([[3, 6, 4, 11],
             [5, 10, 1, 3]])
a.argsort()
b = a.argsort(axis=0)
b
# 使用循环重构原数组
# ??

array([[0, 2, 1, 3],
       [2, 3, 0, 1]], dtype=int64)

array([[0, 0, 1, 1],
       [1, 1, 0, 0]], dtype=int64)

numpy.lexsort() 

用于对多个序列进行排序。把它想象成对电子表格进行排序，每一列代表一个序列，排序时优先照顾靠后的列。

这里举一个应用场景：小升初考试，重点班录取学生按照总成绩录取。在总成绩相同时，数学成绩高的优先录取，在总成绩和数学成绩都相同时，按照英语成绩录取…… 这里，总成绩排在电子表格的最后一列，数学成绩在倒数第二列，英语成绩在倒数第三列。
``` python
lexsort(keys, axis=-1)
```


In [378]:
surnames =    ('Hertz',    'Galilei', 'Hertz')
first_names = ('Heinrich', 'Galileo', 'Gustav')
ind = np.lexsort((first_names, surnames)) # 排序时首先排 surnames
ind
# 使用这个索引来获取排序后的数据
[surnames[i]  +  ", " + first_names[i]  for i in ind]

a = [1,5,1,4,3,4,4] # First column
b = [9,4,0,4,0,2,1] # Second column
ind = np.lexsort((b,a)) # Sort by a, then by b
[(a[i],b[i]) for i in ind]

array([1, 2, 0], dtype=int64)

['Galilei, Galileo', 'Hertz, Gustav', 'Hertz, Heinrich']

[(1, 0), (1, 9), (3, 0), (4, 1), (4, 2), (4, 4), (5, 4)]

msort、sort_complex、partition、argpartition函数

|     函数	  |       描述    |
|--|--|
|    msort(a)	 |按第一个轴排序，返回排序后的数组副本。np.msort(a)=np.sort(a, axis=0)。|
|sort_complex(a)	| 对复数按照先实部后虚部的顺序进行排序。|
|partition(a, kth[, axis, kind, order])	|指定一个数，对数组进行分区|
|argpartition(a, kth[, axis, kind, order])|	可以通过关键字 kind 指定算法沿着指定轴对数组进行分区|

In [379]:
# 复数排序
np.sort_complex([1 + 2j, 2 - 1j, 3 - 2j, 3 - 3j, 3 + 5j])

# partition() 分区排序
a = np.array([3, 4, 2, 1])
# 将数组 a 中所有元素（包括重复元素）从小到大排列，比第3小的放在前面，大的放在后面
np.partition(a, 3)
# 小于 1 的在前面，大于 3 的在后面，1和3之间的在中间
np.partition(a, (1, 3))

# argpartition排序
arr = np.array([46, 57, 23, 39, 1, 10, 0, 120])
# 找到数组的第 3 小（index=2）的值和第 2 大（index=-2）的值
arr[np.argpartition(arr, 2)[2]]
arr[np.argpartition(arr, -2)[-2]]
# 找到第3和第4小的值。用[2,3]同时将第3和第4小的排好，分别通过下标[2]和[3]取得
arr[np.argpartition(arr, [2,3])[2]]
arr[np.argpartition(arr, [2,3])[3]]

array([1.+2.j, 2.-1.j, 3.-3.j, 3.-2.j, 3.+5.j])

array([2, 1, 3, 4])

array([1, 2, 3, 4])

10

57

10

23

numpy.argmax() 和 numpy.argmin()函数分别沿给定轴返回最大和最小元素的索引

In [380]:
a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
a 
np.argmax(a)
print ('展开数组：') 
a.flatten()

# 沿轴 0 的最大值索引
np.argmax(a, axis =  0)  

# 沿轴 1 的最大值索引
np.argmax(a, axis =  1)  

array([[30, 40, 70],
       [80, 20, 10],
       [50, 90, 60]])

7

展开数组：


array([30, 40, 70, 80, 20, 10, 50, 90, 60])

array([1, 2, 0], dtype=int64)

array([2, 0, 1], dtype=int64)

numpy.nonzero() 函数返回输入数组中非零元素的索引

numpy.where() 函数返回输入数组中满足给定条件的元素的索引

numpy.extract() 函数根据某个条件从数组中抽取元素，返回满条件的元素

In [381]:
# numpy.nonzero() 函数
a = np.array([[30,40,0],[0,20,10],[50,0,60]])  
a
np.nonzero (a)
print('\n')

# numpy.where() 函数
x = np.arange(9.).reshape(3,  3)  
x
# 大于 3 的元素的索引
y = np.where(x >  3)  
y
# 使用这些索引来获取满足条件的元素
x[y]
print('\n')

# numpy.extract() 函数
x = np.arange(9.).reshape(3,  3)  
x
# 定义条件, 选择偶数元素
condition = np.mod(x,2)  ==  0  
# 按元素的条件值
condition
# 使用条件提取元素
np.extract(condition, x)

array([[30, 40,  0],
       [ 0, 20, 10],
       [50,  0, 60]])

(array([0, 0, 1, 1, 2, 2], dtype=int64),
 array([0, 1, 1, 2, 0, 2], dtype=int64))





array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))

array([4., 5., 6., 7., 8.])





array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]])

array([0., 2., 4., 6., 8.])

---
# 6.矩阵计算相关

矩阵转置
``` python
numpy.transpose(arr, axes)
```

**参数说明**

* **arr**：要操作的数组

* **axes**：整数列表，对应维度，通常所有维度都会对换。

In [382]:
a = np.array([[3,6,4,11],
             [5,10,1,3]])
# 矩阵转置
a.T # np.transpose(a)

array([[ 3,  5],
       [ 6, 10],
       [ 4,  1],
       [11,  3]])

In [383]:
# 逆矩阵
from numpy.linalg import *
a = np.array([[1,2],
             [3,4]])
inv(a)

# 矩阵行列式
det(a)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

-2.0000000000000004

In [384]:
# 矩阵特征值与特征向量
eig(a)

# 矩阵方程求解
y = np.array([[5], [7]])
solve(a,y)

# 矩阵相关系数计算
np.corrcoef(np.array([1,0,1]), np.array([0,2,1]))

# 矩阵离散傅氏变换的快速算法
np.fft.fft(np.array([1,1,1,1,1,1,1,1]))

# 生成多项式函数
np.poly1d(np.array([2,1,3]))

(array([-0.37228132,  5.37228132]), array([[-0.82456484, -0.41597356],
        [ 0.56576746, -0.90937671]]))

array([[-3.],
       [ 4.]])

array([[ 1.       , -0.8660254],
       [-0.8660254,  1.       ]])

array([8.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j])

poly1d([2, 1, 3])

---
<img src='./res/numpy_ml/npbroadcasting.jpg'>

# 7.数组广播

**如果满足以下规则，可以进行广播：**
* ndim较小的数组会在前面追加一个长度为 1 的维度。
* 输出数组的每个维度的大小是输入数组该维度大小的最大值。
* 如果输入在每个维度中的大小与输出大小匹配，或其值正好为 1，则在计算中可它。
* 如果输入的某个维度大小为 1，则该维度中的第一个数据元素将用于该维度的所有计算。

**如果上述规则产生有效结果，并且满足以下条件之一，那么数组被称为可广播的。**
* 数组拥有相同形状。
* 数组拥有相同的维数，每个维度拥有相同长度，或者长度为 1。
* 数组拥有极少的维度，可以在其前面追加长度为 1 的维度，使上述条件成立。

In [385]:
a = np.array([[1,2,3],
             [2,3,4],
             [12,31,22],
             [2,2,2]])
b = np.array([1,2,3])

for ii in range(4):
    a[ii, :] += b
a

a + np.tile(b,(4,1))

a + b

array([[ 2,  4,  6],
       [ 3,  5,  7],
       [13, 33, 25],
       [ 3,  4,  5]])

array([[ 3,  6,  9],
       [ 4,  7, 10],
       [14, 35, 28],
       [ 4,  6,  8]])

array([[ 3,  6,  9],
       [ 4,  7, 10],
       [14, 35, 28],
       [ 4,  6,  8]])

---
---
|    函数       |     描述    |
|     --       |     --      |
|**broadcast**	   |产生模仿广播的对象|
|**broadcast_to**	|将数组广播到新形状|
|**expand_dims**	|扩展数组的形状|
|**squeeze**	   |从数组的形状中删除一维条目|

numpy.broadcast() 用于模仿广播的对象，它返回一个对象，该对象封装了将一个数组广播到另一个数组的结果。该函数使用两个数组作为输入参数

In [386]:
x = np.array([[1], [2], [3]])
y = np.array([4, 5, 6])  
 
# 对 y 广播 x
b = np.broadcast(x,y)
b.shape
r,c = b.iters
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))
print(next(r), next(c))


(3, 3)

1 4
1 5
1 6
2 4
2 5
2 6
3 4
3 5
3 6


numpy.broadcast_to() 函数将数组广播到新形状。它在原始数组上返回只读视图。 它通常不连续。 如果新形状不符合 NumPy 的广播规则，该函数可能会抛出ValueError。

In [387]:
a = np.arange(4).reshape(1,4)
b = np.broadcast_to(a,(4,4))
b

array([[0, 1, 2, 3],
       [0, 1, 2, 3],
       [0, 1, 2, 3],
       [0, 1, 2, 3]])

numpy.expand_dims 函数通过在指定位置插入新的轴来扩展数组形状，函数格式如下:
``` python
numpy.expand_dims(arr, axis)
```

**参数说明**

* **arr**：输入数组
* **axis**：新轴插入的位置

In [388]:
x = np.array(([1,2],[3,4]))

# 在位置 0 插入轴
y = np.expand_dims(x, axis = 0)
y
x.ndim, y.ndim
x.shape, y.shape
print('\n')

# 在位置 1 插入轴
y = np.expand_dims(x, axis = 1)
y

x.ndim, y.ndim
x.shape, y.shape

array([[[1, 2],
        [3, 4]]])

(2, 3)

((2, 2), (1, 2, 2))





array([[[1, 2]],

       [[3, 4]]])

(2, 3)

((2, 2), (2, 1, 2))

numpy.squeeze 函数从给定数组的形状中删除一维的条目，函数格式如下：
``` python
numpy.squeeze(arr, axis)
```

**参数说明**

* **arr**：输入数组
* **axis**：整数或整数元组，用于选择形状中一维条目的子集

In [389]:
x = np.arange(9).reshape(1,3,3)
x
y = np.squeeze(x)
y
 
x.shape, y.shape

y = np.squeeze(x)
y

array([[[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]])

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

((1, 3, 3), (3, 3))

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

---
# 8.矩阵拼接与分离

### 矩阵拼接

|   **函数**   |   **描述**  |
|     --     |     --    |
|   concatenate	 |  连接沿现有轴的数组序列 |
|     stack	   | 沿着新的轴加入一系列数组 |
|     hstack	| 水平堆叠序列中的数组（列方向）|
|     vstack	| 竖直堆叠序列中的数组（行方向）|

**numpy.concatenate** 函数用于沿指定轴连接相同形状的两个或多个数组，格式如下：
``` python
numpy.concatenate((a1, a2, ...), axis)
```

**参数说明**

* **a1, a2, ...**：相同类型的数组
* **axis**：沿着它连接数组的轴，默认为 0

**numpy.stack** 函数用于沿新轴连接数组序列
``` python
numpy.stack(arrays, axis)
```

**参数说明**

* **arrays**: 相同形状的数组序列
* **axis**：返回数组中的轴，输入数组沿着它来堆叠

**note**
* numpy.hstack 是 numpy.stack 函数的变体，它通过水平堆叠来生成数组
* numpy.vstack 是 numpy.stack 函数的变体，它通过垂直堆叠来生成数组

In [390]:
a = np.array([1,2,3,4])
b = np.array([5,6,7,8])

np.concatenate((a,b), axis=0)

np.hstack((a,b))
np.vstack((a,b))

array([1, 2, 3, 4, 5, 6, 7, 8])

array([1, 2, 3, 4, 5, 6, 7, 8])

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

---
对于axis=1，就是横着切开，对应行横着堆
<img src='../res/numpy_ml/npstack_axis1.jpg' width=450>

对于axis=2，就是横着切开，对应行竖着堆
<img src='../res/numpy_ml/npstack_axis2.jpg' width=450>

对于axis=0，就是不切开，两个堆一起

In [391]:
# 2指的a和b，2放在什么位置是根据axis来确定的
a = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])
b = np.array([[4, 5, 6], [4, 5, 6], [4, 5, 6]])
a.shape, b.shape
np.stack((a, b), axis=0).shape
np.stack((a, b), axis=1).shape
np.stack((a, b), axis=2).shape

# stack结果
np.stack((a, b), axis=0)
np.stack((a, b), axis=1)
np.stack((a, b), axis=2)

((3, 3), (3, 3))

(2, 3, 3)

(3, 2, 3)

(3, 3, 2)

array([[[1, 2, 3],
        [1, 2, 3],
        [1, 2, 3]],

       [[4, 5, 6],
        [4, 5, 6],
        [4, 5, 6]]])

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

array([[[1, 4],
        [2, 5],
        [3, 6]],

       [[1, 4],
        [2, 5],
        [3, 6]],

       [[1, 4],
        [2, 5],
        [3, 6]]])

In [392]:
a = np.array([[[1,2,3,4],[11,21,31,41]],
             [[5,6,7,8],[51,61,71,81]],
             [[9,10,11,12],[91,101,111,121]]])

a.shape
print("列表a如下：")
print(a)

print("新维度的下标为0")
c = np.stack(a, axis=0)
print(c)

print("新维度的下标为1")
c = np.stack(a, axis=1)
print(c)

print("新维度的下标为2")
c = np.stack(a, axis=2)
print(c)

(3, 2, 4)

列表a如下：
[[[  1   2   3   4]
  [ 11  21  31  41]]

 [[  5   6   7   8]
  [ 51  61  71  81]]

 [[  9  10  11  12]
  [ 91 101 111 121]]]
新维度的下标为0
[[[  1   2   3   4]
  [ 11  21  31  41]]

 [[  5   6   7   8]
  [ 51  61  71  81]]

 [[  9  10  11  12]
  [ 91 101 111 121]]]
新维度的下标为1
[[[  1   2   3   4]
  [  5   6   7   8]
  [  9  10  11  12]]

 [[ 11  21  31  41]
  [ 51  61  71  81]
  [ 91 101 111 121]]]
新维度的下标为2
[[[  1   5   9]
  [  2   6  10]
  [  3   7  11]
  [  4   8  12]]

 [[ 11  51  91]
  [ 21  61 101]
  [ 31  71 111]
  [ 41  81 121]]]


### 矩阵分割
|   **函数**    |   **描述**  |
|     --      |     --    |
|     split	   | 将一个数组分割为多个子数组 |
|     hsplit	| 将一个数组水平分割为多个子数组（按列） |
|     vsplit	| 将一个数组垂直分割为多个子数组（按行）|

numpy.split 函数沿特定的轴将数组分割为子数组，格式如下：
``` python
numpy.split(ary, indices_or_sections, axis=0)
```

**参数说明**
* **ary**：被分割的数组
* **indices_or_sections**：如果是一个整数，就用该数平均切分，如果是一个数组，为沿轴切分的位置（左开右闭）
* **axis**：沿着哪个维度进行切向，默认为0，横向切分。为1时，纵向切分

**note**
* numpy.hsplit 函数用于水平分割数组，通过指定要返回的相同形状的数组数量来拆分原数组
* numpy.vsplit 沿着垂直轴分割，其分割方式与hsplit用法相同

In [393]:
# 将数组分为三个大小相等的子数组
np.split(np.arange(9), 3, axis=0)
 
# 将数组在一维数组中表明的位置分割
np.split(np.arange(9), [4,7])

# hsplit
np.hsplit(np.floor(10 * np.random.random((2, 6))), 3)

# vsplit
np.vsplit(np.arange(16).reshape(4,4), 2)

[array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8])]

[array([0, 1, 2, 3]), array([4, 5, 6]), array([7, 8])]

[array([[9., 9.],
        [1., 3.]]), array([[5., 9.],
        [0., 2.]]), array([[1., 9.],
        [6., 9.]])]

[array([[0, 1, 2, 3],
        [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]])]

### 副本和视图
副本是一个数据的完整的拷贝，如果我们对副本进行修改，它不会影响到原始数据，物理内存不在同一位置。

视图是数据的一个别称或引用，通过该别称或引用亦便可访问、操作原有数据，但原有数据不会产生拷贝。如果我们对视图进行修改，它会影响到原始数据，物理内存在同一位置。

* 视图一般发生在：
    1. numpy 的切片操作返回原数据的视图。
    2. 调用 ndarray 的 view() 函数产生一个视图。
* 副本一般发生在：
    1. Python 序列的切片操作，调用deepCopy()函数。
    2. 调用 ndarray 的 copy() 函数产生一个副本。

**完全不拷贝**：简单的赋值不会创建数组对象的副本。 相反，它使用原始数组的相同id()来访问

In [394]:
a = np.arange(6)  
b = a 
# id()返回 Python 对象的通用标识符，类似于 C 中的指针
id(a), id(b)

(1995643692176, 1995643692176)

**视图或浅拷贝**

不同的数组对象可以**共享相同的数据**。view方法会创建一个共享原数组数据的新的数组对象。

ndarray.view() 方会创建一个新的数组对象，该方法创建的新数组的**维数更改不会更改原始数据的维数**。

In [395]:
a = np.arange(6).reshape(3,2)  
a
b = a.view()  
id(a), id(b)
# 修改 b 的形状，并不会修改 a
b.shape = 2,3
b[0,0]=100
a.shape, b.shape
a
b

array([[0, 1],
       [2, 3],
       [4, 5]])

(1995643828704, 1995643859872)

((3, 2), (2, 3))

array([[100,   1],
       [  2,   3],
       [  4,   5]])

array([[100,   1,   2],
       [  3,   4,   5]])

**副本或深拷贝**

copy方法会对数组和其数据进行完全拷贝

ndarray.copy() 函数创建一个副本。 对副本数据进行修改，不会影响到原始数据，它们物理内存不在同一位置

In [396]:
a = np.arange(6).reshape(3,2)  
a
b = a.copy()  
id(a), id(b)
# 修改 b 的形状，并不会修改 a
b.shape = 2,3
b[0,0] = 100
a.shape, b.shape
a
b

array([[0, 1],
       [2, 3],
       [4, 5]])

(1995643860352, 1995643788144)

((3, 2), (2, 3))

array([[0, 1],
       [2, 3],
       [4, 5]])

array([[100,   1,   2],
       [  3,   4,   5]])

**numpy.ndarray.flatten** 将数组的副本转换为**一个维度**返回，不影响原始数组
``` python
ndarray.flatten(order='C')
```

**参数说明**

* **order**：'C' -- 按行，'F' -- 按列，'A' -- 原顺序，'K' -- 元素在内存中的出现顺序

**note**
* ndarray.flat是将数组转换为1-D的迭代器 
* numpy.ravel()返回视图(view), 影响原始数组

In [398]:
a = np.arange(8).reshape(2,4)
a.flatten()
a.flatten(order = 'F')

array([0, 1, 2, 3, 4, 5, 6, 7])

array([0, 4, 1, 5, 2, 6, 3, 7])

### 元素添加与删除

|   **函数**    |   **描述**  |
|     --      |     --    |
|    resize	    | 返回指定形状的新数组 |
|    append	    | 将值添加到数组末尾 |
|    insert  	 | 沿指定轴将值插入到指定下标之前 |
|    delete   	| 删掉某个轴的子数组，并返回删除后的新数组 |
|    unique	    | 查找数组内的唯一元素 |

numpy.resize 函数返回指定大小的新数组。如果新数组大小大于原始大小，则包含原始数组中的元素的副本。
``` puython
numpy.resize(arr, shape)
```

**参数说明**
* **arr**：要修改大小的数组
* **shape**：返回数组的新形状

In [399]:
# numpy.resize 函数
a = np.array([[1,2,3],[4,5,6]])
np.resize(a, (3,2))
# 要注意 a 的第一行重复出现，因为尺寸变大了
np.resize(a,(3,3))

array([[1, 2],
       [3, 4],
       [5, 6]])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3]])

numpy.append 函数在数组的末尾添加值。 追加操作会分配整个数组，并把原来的数组复制到新数组中。 此外，输入数组的维度必须匹配否则将生成ValueError,始终返回一维数组。
``` puython
numpy.append(arr, values, axis=None)
```

**参数说明**：
* **arr**：输入数组
* **values**：要向arr添加的值，需要和arr形状相同（除了要添加的轴）
* **axis**：默认为 None。当axis无定义时，是横向加成，返回总是为一维数组！当axis有定义的时候，分别为0和1的时候。当axis有定义的时候，分别为0和1的时候（列数要相同）。当axis为1时，数组是加在右边（行数要相同）。


In [400]:
# 沿轴 1 添加元素
a = np.array([[1,2,3],[4,5,6]])
np.append(a, [[5,5,5],[7,8,9]],axis = 1)

array([[1, 2, 3, 5, 5, 5],
       [4, 5, 6, 7, 8, 9]])

numpy.insert 函数在给定索引之前，沿给定轴在输入数组中插入值。如果值的类型转换为要插入，则它与输入数组不同。 插入没有原地的，函数会返回一个新数组。 此外，如果未提供轴，则输入数组会被展开。
``` puython
numpy.insert(arr, obj, values, axis)
```

**参数说明**
* **arr**：输入数组
* **obj**：在其之前插入值的索引
* **values**：要插入的值
* **axis**：沿着它插入的轴，如果未提供，则输入数组会被展开

In [401]:
a = np.array([[1,2],[3,4],[5,6]])
np.insert(a,1,[11],axis = 0)
np.insert(a,1,11,axis = 1)

array([[ 1,  2],
       [11, 11],
       [ 3,  4],
       [ 5,  6]])

array([[ 1, 11,  2],
       [ 3, 11,  4],
       [ 5, 11,  6]])

numpy.unique 函数用于去除数组中的重复元素。
``` python
numpy.unique(arr, return_index, return_inverse, return_counts)
```
**参数说明**
* **arr**：输入数组，如果不是一维数组则会展开
* **return_index**：如果为true，返回新列表元素在旧列表中的位置（下标），并以列表形式储
* **return_inverse**：如果为true，返回旧列表元素在新列表中的位置（下标），并以列表形式储
* **return_counts**：如果为true，返回去重数组中的元素在原数组中的出现次数

In [402]:
a = np.array([5,2,6,2,7,5,6,8,2,9])
# 数组的去重值
u = np.unique(a)
u

# 去重数组的索引数组
u,indices = np.unique(a, return_index = True)
u
indices

# 去重数组的下标
u,indices = np.unique(a, return_inverse  = True)
u
indices

# 返回去重元素的重复数量)
u,indices = np.unique(a,return_counts = True)
u
indices

array([2, 5, 6, 7, 8, 9])

array([2, 5, 6, 7, 8, 9])

array([1, 0, 2, 4, 7, 9], dtype=int64)

array([2, 5, 6, 7, 8, 9])

array([1, 0, 2, 0, 3, 1, 2, 4, 0, 5], dtype=int64)

array([2, 5, 6, 7, 8, 9])

array([3, 2, 2, 1, 1, 1], dtype=int64)

---
# 9.列表删除某些行或列

numpy.delete 函数返回从输入数组中删除指定子数组的新数组。 与 insert() 函数的情况一样，如果未提供轴参数，则输入数组将展开。
``` python
Numpy.delete(arr, obj, axis)
```

**参数说明**
* **arr**：输入数组
* **obj**：可以被切片，整数或者整数数组，表明要从输入数组删除的子数组
* **axis**：沿着它删除给定子数组的轴，如果未提供，则输入数组会被展开

In [403]:
# 对于一个二维数组，axis=0，表示行，axis=1，表示列
# 这里删除第 0 行，第 2 行，第 4 行：
A = [[0,0,0,0],
     [1,1,1,1],
     [2,2,2,2],
     [3,3,3,3]]
B = np.delete(A, [0, 2], axis=0)
B

a = np.array([1,2,3,4,5,6,7,8,9,10])
np.delete(a, np.s_[::2])

array([[1, 1, 1, 1],
       [3, 3, 3, 3]])

array([ 2,  4,  6,  8, 10])

---
# 10.数组遍历

In [404]:
a = np.arange(9) 
a = a.reshape(3,3)   
a
b = a.T 

# C order，即是行序优先
c = b.copy(order='C')  
for x in np.nditer(c):  
    print (x, end=", " )
print('\n')

# Fortran order，即是列序优先
c = b.copy(order='F')  
for x in np.nditer(c):  
    print (x, end=", " )

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

0, 3, 6, 1, 4, 7, 2, 5, 8, 

0, 1, 2, 3, 4, 5, 6, 7, 8, 

In [405]:
a = np.arange(9).reshape(3,3) 

#对数组中每个元素都进行处理，可以使用flat属性，该属性是一个数组元素迭代器：
for element in a.flat:
    print(element, end=", " )

0, 1, 2, 3, 4, 5, 6, 7, 8, 

---
# 11.numpy位运算

NumPy "bitwise_" 开头的函数是位运算函数。

http://www.runoob.com/numpy/numpy-binary-operators.html

---
# 12.字符串函数

|   **函数**    |   **描述**  |
|     --      |     --    |
|     add()	   | 对两个数组的逐个字符串元素进行连接 |
|    multiply()	 | 返回按元素多重连接后的字符串 |
|     center()	| 居中字符串 |
|   capitalize() | 将字符串第一个字母转换为大写 |
|     title()	| 将字符串的每个单词的第一个字母转换为大写 |
|     lower()	| 数组元素转换为小写 |
|     upper()	| 数组元素转换为大写 |
|     split()	| 指定分隔符对字符串进行分割，并返回数组列表 |
|   splitlines() | 返回元素中的行列表，以换行符分割 |
|     strip()	| 移除元素开头或者结尾处的特定字符 |
|     join()	| 通过指定分隔符来连接数组中的元素 |
|    replace()	 | 使用新字符串替换字符串中的所有子字符串 |
|    decode()	 | 数组元素依次调用str.decode |
|    encode()	 | 数组元素依次调用str.encode |

numpy.char.add() 函数依次对两个数组的元素进行字符串连接

numpy.char.multiply() 函数执行多重连接

numpy.char.center() 函数用于将字符串居中，并使用指定字符在左侧和右侧进行填充

In [406]:
np.char.add(['hello', 'hi'],[' abc', ' xyz'])

np.char.multiply('Runoob ',3)

np.char.center('Runoob', 20, fillchar = '*')

array(['hello abc', 'hi xyz'], dtype='<U9')

array('Runoob Runoob Runoob ', dtype='<U21')

array('*******Runoob*******', dtype='<U20')

numpy.char.capitalize() 函数将字符串的第一个字母转换为大写

numpy.char.title() 函数将字符串的每个单词的第一个字母转换为大写

numpy.char.lower() 函数对数组的每个元素转换为小写。它对每个元素调用 str.lower

numpy.char.upper() 函数对数组的每个元素转换为大写。它对每个元素调用 str.upper

In [407]:
np.char.capitalize('hello runoob')

np.char.title('i like runoob')

np.char.lower(['RUNOOB','GOOGLE'])
np.char.lower('RUNOOB')

np.char.upper(['runoob','google'])
np.char.upper('runoob')

array('Hello runoob', dtype='<U12')

array('I Like Runoob', dtype='<U13')

array(['runoob', 'google'], dtype='<U6')

array('runoob', dtype='<U6')

array(['RUNOOB', 'GOOGLE'], dtype='<U6')

array('RUNOOB', dtype='<U6')

numpy.char.split() 通过指定分隔符对字符串进行分割，并返回数组。默认情况下，分隔符为空格

numpy.char.splitlines() 函数以换行符作为分隔符来分割字符串，并返回数组

numpy.char.strip() 函数用于移除开头或结尾处的特定字符

numpy.char.join() 函数通过指定分隔符来连接数组中的元素或字符串

numpy.char.replace() 函数使用新字符串替换字符串中的所有子字符串

In [408]:
np.char.split ('www.runoob.com', sep = '.')

np.char.splitlines('i\r\nreally \nlike \rrunoob')

print('strip')
# 移除字符串头尾的 a 字符
np.char.strip('ashok arunooba','a')
# 移除数组元素头尾的 a 字符
np.char.strip(['arunooba','admin','java'],'a')

print('join')
# 操作字符串
np.char.join(':','runoob')
# 指定多个分隔符操作数组元素
np.char.join([':','-'],['runoob','google'])

# np.char.replace(a, old, new, count=None)
np.char.replace('i like runoob', 'oo', 'cc')

array(list(['www', 'runoob', 'com']), dtype=object)

array(list(['i', 'really ', 'like ', 'runoob']), dtype=object)

strip


array('shok arunoob', dtype='<U14')

array(['runoob', 'dmin', 'jav'], dtype='<U8')

join


array('r:u:n:o:o:b', dtype='<U11')

array(['r:u:n:o:o:b', 'g-o-o-g-l-e'], dtype='<U11')

array('i like runccb', dtype='<U13')

numpy.char.encode() 函数对数组中的每个元素调用 str.encode 函数。 默认编码是 utf-8，可以使用标准 Python 库中的编解码器。

numpy.char.decode() 函数对编码的元素进行 str.decode() 解码。

In [409]:
a = np.char.encode('runoob', 'cp500') 
a
np.char.decode(a,'cp500')

array(b'\x99\xa4\x95\x96\x96\x82', dtype='|S6')

array('runoob', dtype='<U6')