[TOC]

# Numpy基础

## NumPy Ndarray 对象  

* ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。  
* 用于对整组数据进行快速运算的标准数学函数（无需编写循环）
* 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
* 线性代数、随机数生成以及傅里叶变换功能。  
* **用于存放同类型元素的多维数组**  

```python  
numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
```

|属性|说明|
|-----|------|
|object|数组或嵌套的数列|
|dtype|数组元素的数据类型，可选|
|copy|	对象是否需要复制，可选|
|order|创建数组的样式，C为行方向，F为列方向，A为任意方向（默认）|
|subok|默认返回一个与基类类型一致的数组|
|ndmin|指定生成数组的最小维度|

## Numpy数组的属性  

|属性 | 说明 |
| ---------- | --------------------- |
| a.ndim | 数组的维度的数量 |
| a.shape | 数组的维度 |
| a.size | 数组元素的总个数 |
| a.dtype | ndarray对象的元素类型 |
| a.itemsize | 每个元素的大小 |
| a.flags | ndarray对象的内存信息 |
| a.real | ndarray元素的实部 |
| a.imag | ndarray 元素的虚部 |

## 创建数组的方法  

* 根据自带函数创建
* 从已有的数组创建  
* 从数值范围创建  
* Random values

```python
# Method 1: np.array()
## 1-D
a = np.array([1,2,3])
a.shape
a.dtype # int32, boolean, string, float
a.ndim

## 2-D
a = np.array([[0,1,2],[3,4,5]])

# Method 2:使用函数(arange, linspace, ones, zeros, eys, diag,random)创建  
a = np.arange(10,20,2)  # [10  12  14  16  18]
a = np.linspace(0,1,6, endpoint=False) # 生成等差数列
a = np.logspace(1.0,  2.0, num = 10) # 生成等比数列
a = np.ones((3,3))
a = np.zeros((3,3))
a = np.empty([3,2],dtype=int)
a = np.eye(3)
a = np.diag(np.array([1,2,3,4]))
a = np.triu(np.ones((3,3)),1)

# Method 3: Random values
a = np.random.rand(4) # unifomr in [0,1]
a = np.random.randn(4) # Gaussian
np.random.seed(1234)

# Method 4:从已有的数组创建新数组  
a = np.asarray([(1,2,3),(4,5)])
a = np.frombuffer(b'Hello World', dtype =  'S1')   # 通过流的形式读入字符串

# 使用 range 函数创建列表对象  
list=range(5)
it=iter(list)
 
# 使用迭代器创建 ndarray 
x=np.fromiter(it, dtype=float)

```

## 数组的切片和索引

**数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。**

```python
arr = np.arange(10) # [0 1 2 3 4 5 6 7 8 9] 

# slice
# 1-D
a = np.arange(10)
a[5], a[-1] # Index: 4,9
a[5:8] = 12 # Slice: all 5-8 is set as 12
arr[5:8].copy() # Slice without view

# 2-D
a = np.ones((3,3))
a[2] # second row
a[2].copy() # slice without view
a[0][2] # special value

a[:2]
a[:2, 1:] = 0

arr[5:8] = 12 # [ 0 1 2 3 4 12 12 12 8 9]
```

## 高级索引

### 整数索引

```python  
x = np.array([[1,  2],  [3,  4],  [5,  6]]) 
y = x[[0,1,2],  [0,1,0]]   # 获取数组中(0,0)，(1,1)和(2,0)位置处的元素。
```

### 布尔索引

布尔索引通过布尔运算（如：比较运算符）来获取符合指定条件的元素的数组。

```python
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

data[names == 'Bob'] # select a row from data based on the if names equals Bob(boolean value)
data[~(names == 'Bob')] # not equal to Bob
data[(names == 'Bob') | (names == 'Will')] #e qual to Bob and Will
data[data<0] = 0

np.sum(x<6) # x中有多少值大于6
np.any(x>8) # x中有值大于8吗
np.all(x==10)

np.sum((x>0.5) & (x<1))

x[x<5] # mask operations
```

### 花式索引

花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。对于使用一维整型数组作为索引，如果目标是一维数组，那么索引的结果就是对应位置的元素；如果目标是二维数组，那么就是对应下标的行。

In [1]:
import numpy as np

x=np.arange(32).reshape((8,4))
print (x[[4,2,1,7]])

[[16 17 18 19]
 [ 8  9 10 11]
 [ 4  5  6  7]
 [28 29 30 31]]


## 广播

如果两个数组的维数不相同，则元素到元素的操作是不可能的。 然而，在 NumPy 中仍然可以对形状不相似的数组进行操作，因为它拥有广播功能。 较小的数组会广播到较大数组的大小，以便使它们的形状可兼容。  

规则
* ndim较小的数组会在前面追加一个长度为 1 的维度。
* 输出数组的每个维度的大小是输入数组该维度大小的最大值。
* 如果输入在每个维度中的大小与输出大小匹配，或其值正好为 1，则可以在计算中使用该输入。  
* 如果输入的某个维度大小为 1，则该维度中的第一个数据元素将用于该维度的所有计算。

![](http://www.runoob.com/wp-content/uploads/2018/10/image0020619.gif)

In [3]:
a = np.array([[0.0,0.0,0.0],[10.0,10.0,10.0],[20.0,20.0,20.0],[30.0,30.0,30.0]]) 
b = np.array([1.0,2.0,3.0])
print ('第一个数组：')
print (a)
print ('\n第二个数组：')
print (b)
print ('\n第一个数组加第二个数组：')
print (a + b)

第一个数组：
[[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]

第二个数组：
[1. 2. 3.]

第一个数组加第二个数组：
[[ 1.  2.  3.]
 [11. 12. 13.]
 [21. 22. 23.]
 [31. 32. 33.]]


## 数组迭代循环

NumPy 迭代器对象 numpy.nditer 提供了一种灵活访问一个或者多个数组元素的方式。  

迭代器最基本的任务的可以完成对数组元素的访问

In [4]:
a = np.arange(6).reshape(2,3)
print ('原始数组是：')
print (a)
print ('\n')
print ('迭代输出元素：')
for x in np.nditer(a):
    print (x, end=", " )
print ('\n')

原始数组是：
[[0 1 2]
 [3 4 5]]


迭代输出元素：
0, 1, 2, 3, 4, 5, 



### 在迭代中修改数组的值

nditer 对象有另一个可选参数 op_flags。 默认情况下，nditer 将视待迭代遍历的数组为只读对象（read-only），为了在遍历数组的同时，实现对数组元素值得修改，必须指定 read-write 或者 write-only 的模式。

In [5]:
a = np.arange(0,60,5) 
a = a.reshape(3,4)  
print ('原始数组是：')
print (a)
print ('\n')
for x in np.nditer(a, op_flags=['readwrite']): 
    x[...]=2*x 
print ('修改后的数组是：')
print (a)

原始数组是：
[[ 0  5 10 15]
 [20 25 30 35]
 [40 45 50 55]]


修改后的数组是：
[[  0  10  20  30]
 [ 40  50  60  70]
 [ 80  90 100 110]]


## 数组操作  

* 修改数组形状  
* 反转数组  
* 修改数组维度  
* 连接数组  
* 分割数组  
* 数组元素的添加和删除  

### 修改数组形状

|函数|描述|
|----|---|
|reshape|不改变数据的条件下修改形状|
|flat|数组元素迭代器|
|flatten|返回一份数组拷贝，对拷贝所做的修改不会影响原始数组|
|ravel|返回展开数组|

In [7]:
a = np.arange(8)
print ('原始数组：')
print (a)
print ('\n')
 
b = a.reshape(4,2)
print ('修改后的数组：')
print (b)
print ('\n')

#对数组中每个元素都进行处理，可以使用flat属性，该属性是一个数组元素迭代器：
print ('迭代后的数组：')
for element in b.flat:
    print (element)

print ('展开的数组：')
print (b.flatten())
print ('\n')

print ('调用 ravel 函数之后：')
print (b.ravel())
print ('\n')

原始数组：
[0 1 2 3 4 5 6 7]


修改后的数组：
[[0 1]
 [2 3]
 [4 5]
 [6 7]]


迭代后的数组：
0
1
2
3
4
5
6
7
展开的数组：
[0 1 2 3 4 5 6 7]


调用 ravel 函数之后：
[0 1 2 3 4 5 6 7]




### 翻转数组  

|函数|描述|
|----|---|
|transpose|对换数组的维度|
|rollaxis|向后滚动指定的轴|
|swapaxes|对换数组的两个轴|

In [8]:
a = np.arange(12).reshape(3,4)
 
print ('原数组：')
print (a )
print ('\n')
 
print ('对换数组：')
print (a.T)

原数组：
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


对换数组：
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


### 连接数组

|函数|描述|
|---|---|
|concatenate|连接沿现有轴的数组序列|
|stack|沿着新的轴加入一系列数组。|
|hstack|水平堆叠序列中的数组（列方向）|
|vstack|竖直堆叠序列中的数组（行方向）|

In [10]:
a = np.array([[1,2],[3,4]])
 
print ('第一个数组：')
print (a)
print ('\n')
b = np.array([[5,6],[7,8]])
 
print ('第二个数组：')
print (b)
print ('\n')
# 两个数组的维度相同
 
print ('concatenate沿轴 0 连接两个数组：')
print (np.concatenate((a,b)))
print ('\n')
 
print ('concatenate沿轴 1 连接两个数组：')
print (np.concatenate((a,b),axis = 1))
print ('\n')

print ('stack沿轴 0 堆叠两个数组：')
print (np.stack((a,b),0))
print ('\n')
 
print ('stack沿轴 1 堆叠两个数组：')
print (np.stack((a,b),1))
print ('\n')

print ('水平堆叠：')
c = np.hstack((a,b))
print (c)
print ('\n')

print ('竖直堆叠：')
d = np.vstack((a,b))
print (d)

第一个数组：
[[1 2]
 [3 4]]


第二个数组：
[[5 6]
 [7 8]]


concatenate沿轴 0 连接两个数组：
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


concatenate沿轴 1 连接两个数组：
[[1 2 5 6]
 [3 4 7 8]]


stack沿轴 0 堆叠两个数组：
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


stack沿轴 1 堆叠两个数组：
[[[1 2]
  [5 6]]

 [[3 4]
  [7 8]]]


水平堆叠：
[[1 2 5 6]
 [3 4 7 8]]


竖直堆叠：
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


### 数组分割

|函数|说明|
|---|---|
|split|将一个数组分割为多个子数组|
|hsplit|将一个数组水平分割为多个子数组（按列）|
|vsplit|将一个数组垂直分割为多个子数组（按行）|

In [12]:
a = np.arange(9)
 
print ('第一个数组：')
print (a)
print ('\n')
 
print ('将数组分为三个大小相等的子数组：')
b = np.split(a,3)
print (b)
print ('\n')
 
print ('将数组在一维数组中表明的位置分割：')
b = np.split(a,[4,7])
print (b)
print ('\n')

harr = np.floor(10 * np.random.random((6, 6)))
print ('原array：')
print(harr)
print ('\n')
 
print ('水平拆分后：')
print(np.hsplit(harr, 3))
print ('\n')

print ('竖直分割：')
print (np.vsplit(harr,2))

第一个数组：
[0 1 2 3 4 5 6 7 8]


将数组分为三个大小相等的子数组：
[array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8])]


将数组在一维数组中表明的位置分割：
[array([0, 1, 2, 3]), array([4, 5, 6]), array([7, 8])]


原array：
[[9. 3. 8. 8. 9. 9.]
 [3. 7. 1. 7. 1. 5.]
 [2. 3. 8. 6. 7. 0.]
 [2. 8. 0. 9. 6. 3.]
 [1. 9. 8. 5. 5. 0.]
 [7. 4. 8. 6. 9. 7.]]


水平拆分后：
[array([[9., 3.],
       [3., 7.],
       [2., 3.],
       [2., 8.],
       [1., 9.],
       [7., 4.]]), array([[8., 8.],
       [1., 7.],
       [8., 6.],
       [0., 9.],
       [8., 5.],
       [8., 6.]]), array([[9., 9.],
       [1., 5.],
       [7., 0.],
       [6., 3.],
       [5., 0.],
       [9., 7.]])]


竖直分割：
[array([[9., 3., 8., 8., 9., 9.],
       [3., 7., 1., 7., 1., 5.],
       [2., 3., 8., 6., 7., 0.]]), array([[2., 8., 0., 9., 6., 3.],
       [1., 9., 8., 5., 5., 0.],
       [7., 4., 8., 6., 9., 7.]])]


### 数组元素添加和删除  

|函数|作用|
|-----|----------|
|resize|返回指定形状的新数组|
|append|将值添加到数组末尾|
|insert|沿指定轴将值插入到指定下标之前|
|delete|删掉某个轴的子数组，并返回删除后的新数组|
|unique|查找数组内的唯一元素|

In [14]:
a = np.array([[1,2,3],[4,5,6]])
 
print ('第一个数组：')
print (a)
print ('\n')

print ('第一个数组的形状：')
print (a.shape)
print ('\n')
b = np.resize(a, (3,2))
 
print ('第二个数组：')
print (b)
print ('\n')
 
print ('第二个数组的形状：')
print (b.shape)
print ('\n')

print ('向数组添加元素：')
print (np.append(a, [7,8,9]))
print ('\n')
 
print ('沿轴 0 添加元素：')
print (np.append(a, [[7,8,9]],axis = 0))
print ('\n')
 
print ('沿轴 1 添加元素：')
print (np.append(a, [[5,5,5],[7,8,9]],axis = 1))
print ('\n')

print ('insert:沿轴 0 广播：')
print (np.insert(a,1,[11],axis = 0))
print ('\n')
 
print ('insert:沿轴 1 广播：')
print (np.insert(a,1,11,axis = 1))

print ('删除第二列：')
print (np.delete(a,1,axis = 1))
print ('\n')

第一个数组：
[[1 2 3]
 [4 5 6]]


第一个数组的形状：
(2, 3)


第二个数组：
[[1 2]
 [3 4]
 [5 6]]


第二个数组的形状：
(3, 2)


向数组添加元素：
[1 2 3 4 5 6 7 8 9]


沿轴 0 添加元素：
[[1 2 3]
 [4 5 6]
 [7 8 9]]


沿轴 1 添加元素：
[[1 2 3 5 5 5]
 [4 5 6 7 8 9]]


insert:沿轴 0 广播：
[[ 1  2  3]
 [11 11 11]
 [ 4  5  6]]


insert:沿轴 1 广播：
[[ 1 11  2  3]
 [ 4 11  5  6]]
删除第二列：
[[1 3]
 [4 6]]




## Numpy字符串函数

|函数|说明|
|----|----|
|add()|对两个数组的逐个字符串元素进行连接|
|multiply()|返回按元素多重连接后的字符串|
|center()|居中字符串|
|capitalize()|将字符串第一个字母转换为大写|
|title()|将字符串的每个单词的第一个字母转换为大写|
|lower()|数组元素转换为小写|
|upper()|数组元素转换为大写|
|split()|指定分隔符对字符串进行分割，并返回数组列表|
|splitlines()|返回元素中的行列表，以换行符分割|
|strip()|移除元素开头或者结尾处的特定字符|
|join()|通过指定分隔符来连接数组中的元素|
|replace()|使用新字符串替换字符串中的所有子字符串|
|decode()||
|encode()||

In [22]:
print ('连接两个字符串：')
print (np.char.add(['hello'],[' xyz']))
print ('\n')
 
print ('连接示例：')
print (np.char.add(['hello', 'hi'],[' abc', ' xyz']))
print ('\n')

print ('多重连接')
print (np.char.multiply('Runoob ',3))
print ('\n')

print ('居中显示')
print (np.char.center('Runoob', 20,fillchar = '*'))
print ('\n')

print ('首字母大写')
print (np.char.capitalize('runoob'))
print ('\n')

print ('所有首字母大写')
print (np.char.title('i like runoob'))
print ('\n')

print ('全小写')
print (np.char.lower('RUNOOB'))
print ('\n')

print ('全大写')
print (np.char.upper('runoob'))
print ('\n')

print ('分隔符')
# 分隔符默认为空格
print (np.char.split ('i like runoob?'))
# 分隔符为 .
print (np.char.split ('www.runoob.com', sep = '.'))
print ('\n')

print ('换行符')
# 换行符 
print (np.char.splitlines('i\nlike runoob?')) 
print (np.char.splitlines('i\rlike runoob?'))
print ('\n')

print ('移除特定字符')
# 移除字符串头尾的 a 字符
print (np.char.strip('ashok arunooba','a'))
print ('\n')

print ('指定链接符')     
# 指定多个分隔符操作数组元素
print (np.char.join([':','-'],['runoob','google']))
print ('\n')

print ('替换符')       
print (np.char.replace ('i like runoob', 'oo', 'cc'))

连接两个字符串：
['hello xyz']


连接示例：
['hello abc' 'hi xyz']


多重连接
Runoob Runoob Runoob 


居中显示
*******Runoob*******


首字母大写
Runoob


所有首字母大写
I Like Runoob


全小写
runoob


全大写
RUNOOB


分隔符
['i', 'like', 'runoob?']
['www', 'runoob', 'com']


换行符
['i', 'like runoob?']
['i', 'like runoob?']


移除特定字符
shok arunoob


指定链接符
['r:u:n:o:o:b' 'g-o-o-g-l-e']


替换符
i like runccb


## Numpy通用数学函数  

通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的矢量化包装器。  

![](http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/null/1532335445187_0BKZZm1lJ0.jpg)
![](http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/null/1532335458652_RFShN0l2xv.jpg)
![](http://aliyuntianchipublic.cn-hangzhou.oss-pub.aliyun-inc.com/public/files/image/null/1532335470408_8FbemgBmjb.jpg)  

In [23]:
a = np.arange(9, dtype = np.float_).reshape(3,3)  
print ('第一个数组：')
print (a)
print ('\n')
print ('第二个数组：')
b = np.array([10,10,10])  
print (b)
print ('\n')
print ('两个数组相加：')
print (np.add(a,b))
print ('\n')
print ('两个数组相减：')
print (np.subtract(a,b))
print ('\n')
print ('两个数组相乘：')
print (np.multiply(a,b))
print ('\n')
print ('两个数组相除：')
print (np.divide(a,b))

第一个数组：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]


第二个数组：
[10 10 10]


两个数组相加：
[[10. 11. 12.]
 [13. 14. 15.]
 [16. 17. 18.]]


两个数组相减：
[[-10.  -9.  -8.]
 [ -7.  -6.  -5.]
 [ -4.  -3.  -2.]]


两个数组相乘：
[[ 0. 10. 20.]
 [30. 40. 50.]
 [60. 70. 80.]]


两个数组相除：
[[0.  0.1 0.2]
 [0.3 0.4 0.5]
 [0.6 0.7 0.8]]


## Numpy统计函数

![](https://img2018.cnblogs.com/blog/1575244/201901/1575244-20190104110612898-1338707515.png)

* numpy.amin() 和 numpy.amax()  
numpy.amin() 用于计算数组中的元素沿指定轴的最小值。  
numpy.amax() 用于计算数组中的元素沿指定轴的最大值。  
* numpy.ptp()函数计算数组中元素最大值与最小值的差（最大值 - 最小值）。  
* numpy.percentile()表示小于这个值的观察值的百分比。  
* numpy.median() 函数用于计算数组 a 中元素的中位数  
* numpy.mean() 函数返回数组中元素的算术平均值。 如果提供了轴，则沿其计算。  
* numpy.std()计算标准差  
* np.var()计算方差

# Numpy高级