In [2]:
import numpy as np
np.__version__

'1.15.1'

In [4]:
one = np.arange(15)
one.reshape(3,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [14]:
a = range(10)
np.array(a)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## 基础

> In NumPy dimensions are called axes. The number of axes is rank.
Numpy中，维度被称作axes, 维度数被称作rank。

Numpy的数组类是ndarray, 与标准python库的数组不太一样，它包含的元素必须是相同类型的。

ndarray的常见属性如下:

    . ndarray.ndim数组的轴数(即rank)
    
    . ndarray.shape数组的维度，返回的是一个元组，元组的长度值刚好是ndim
    
    . ndarray.size数组元素的个数
    
    . ndarray.dtype数组元素的类型
    
    . ndarray.itemsize数组元素的字节大小
    
    . ndarray.data数组包含的实际数据(一般情况下不会用到这个属性，都是通过索引来访问元素)

In [26]:
two = one.reshape(3,5)
print(two.ndim )#2
print(two.shape) # (3,5)
print(two.size )# 15
print(two.dtype) # dtype('int32')
print(two.data)

2
(3, 5)
15
int32
<memory at 0x0000000005ADF8B8>


## 创建数组
### 1. 通过array函数，可以从普通的python列表或元组来创建
> numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)


. object 任何暴露数组接口方法的对象都会返回一个数组或任何(嵌套)序列。

. dtype 数组的所需数据类型，可选。

. copy 可选，默认为true，对象是否被复制。

. order C(按行)、F(按列)或A(任意，默认)。

. subok 默认情况下，返回的数组被强制为基类数组。 如果为true，则返回子类。

. ndimin 指定返回数组的最小维数。


In [28]:
two.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

In [29]:
c = np.array([(1.5, 2.3), (4,5,6)])

In [32]:
d = np.array([[1,2,3],[4,5,6]])

In [34]:
c.shape

(2,)

In [33]:
d.shape

(2, 3)

### 2. 使用特殊函数
通常情况下， 数组元素的初始数据是不知道的，但是知道数组的大小。因此Numpy提供了一些函数来创建指定大小的数组，并用占位符来填充数组。


zeros函数创建初始值为0的数组

ones创建初始值为1的数组

empty创建未初始化的随机数组

默认情况下，上面三个函数创建数组的元素类型都是float64。

In [40]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [42]:
np.ones((4,4),dtype=np.int8)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int8)

In [43]:
np.linspace(0,2,10)

array([0.        , 0.22222222, 0.44444444, 0.66666667, 0.88888889,
       1.11111111, 1.33333333, 1.55555556, 1.77777778, 2.        ])

In [45]:
#  logspace(a,b,N) 把10的a次方到10的b次方区间分成N份
np.logspace(-1,2,4)

array([  0.1,   1. ,  10. , 100. ])

### 序列函数
Numpy也提供了类似range函数的方法, numpy.arange(start, stop, step, dtype)

start 范围的起始值，默认为0

stop 范围的终止值(不包含)


step 两个值的间隔，默认为1

dtype 返回ndarray的数据类型，如果没有提供，则会使用输入数据的类型。


In [35]:
a = np.arange(6)

In [36]:
b = np.arange(1,13,2).reshape(2,3)
b

array([[ 1,  3,  5],
       [ 7,  9, 11]])

In [39]:
# 三维数组
c =  np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

## 基本操作
数组的算术运算会自动作用于每个元素，并返回一个新的数组

In [68]:
a = np.array([20,30,40,50])
b = np.arange(4)
a - b

array([20, 29, 38, 47])

In [50]:
b**2

array([0, 1, 4, 9], dtype=int32)

In [51]:
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [52]:
# 关系运算
a < 35

array([ True,  True, False, False])

In [59]:
d = np.array([1,2])
d

array([1, 2])

In [60]:
# 数组的相乘必须是同型的
a*d

ValueError: operands could not be broadcast together with shapes (4,) (2,) 

In [70]:
d = np.array([1,2,3,4])
a*d

array([ 20,  60, 120, 200])

一些操作， 如+=和*=是直接修改原有的数组，而不是新建一个, 但是注意数组类型之间的转换, 即总是向精度更高的自动转换

In [71]:
a = a*d
a

array([ 20,  60, 120, 200])

ndarray包含了很多一元运算。如求和等

In [72]:
a = np.arange(15).reshape(3, 5)

In [79]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [74]:
a.sum()

105

In [75]:
a.min()

0

In [76]:
a.max()

14

默认情况下，这些操作都是作用于每一个元素，而不管它的维度。但是，我们也可以通过axis参数来限定操作的轴

In [77]:
a.sum(axis=0)

array([15, 18, 21, 24, 27])

In [78]:
a.sum(axis=1)

array([10, 35, 60])

通用函数
Numpy提供了很多常见的数学上的运算，如sin, cos, exp。在Numpy中，我们称这些为"universal functions"（ufunc）

## 数组的访问:
### 索引，切片和迭代
基本切片是 Python 中基本切片概念到 n 维的扩展。 通过将start，stop和step参数提供给内置的slice函数来构造一个 Python slice对象。 此slice对象被传递给数组来提取数组的一部分。

In [81]:
a = np.arange(10)

In [83]:
a[:6:2]  # 等价于a[0:6:2]

array([0, 2, 4])

In [84]:
 a[::-1]  # 反转数组a

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [88]:
b = np.arange(9).reshape(3,3)
b

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

通过将由冒号分隔的切片参数(start:stop:step)直接提供给ndarray对象，也可以获得相同的结果。

In [98]:
s = slice(0,2,1)
b[s]

array([[0, 1, 2],
       [3, 4, 5]])

In [100]:
b[:,0:2:1]

array([[0, 1],
       [3, 4],
       [6, 7]])

切片还可以包括省略号(...)，来使选择元组的长度与数组的维度相同。 如果在行位置使用省略号，它将返回包含行中元素的ndarray。

In [102]:
a = np.array([[1,2,3],[3,4,5],[4,5,6]])  

In [105]:
a[...,1:3]

array([[2, 3],
       [4, 5],
       [5, 6]])

In [106]:
a[1,...] 

array([3, 4, 5])

### 高级索引
如果一个ndarray是非元组序列，数据类型为整数或布尔值的ndarray，或者至少一个元素为序列对象的元组，我们就能够用它来索引ndarray。高级索引始终返回**数据的副本**。 与此相反，切片只提供了一个视图。
有两种类型的高级索引：整数和布尔值。



In [118]:
x = np.arange(9).reshape(3,3)
y = x[[0,1,2],  [0,1,2]]
print(y)
y = 0
x

[0 4 8]


array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [121]:
s = slice(0,2,1)
x[::,s]
print(x[::,s])
x[::,s]=0
x

[[0 1]
 [3 4]
 [6 7]]


array([[0, 0, 2],
       [0, 0, 5],
       [0, 0, 8]])

### 布尔索引

In [124]:
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]]) 
y = x>5
print(y)
x[y]

[[False False False]
 [False False False]
 [ True  True  True]
 [ True  True  True]]


array([ 6,  7,  8,  9, 10, 11])

In [126]:
a = np.array([np.nan,  1,2,np.nan,3,4,5])  
a[~np.isnan(a)]

array([1., 2., 3., 4., 5.])

TODO: https://www.yiibai.com/numpy/numpy_statistical_functions.html
https://www.jianshu.com/p/38857b57effa