In [4]:
"""
NumPy（numeric Python） 是python中的处理多维数组的包。
"""
import numpy as np # 引入Numpy

# numpy 数组属性

In [5]:
"""
ndarray.shape
返回一个表示数组维度的元组，也可用于调整数组大小
"""
a = np.array([[1, 2, 3], [4, 5, 6]])
print a.shape

# 调整数组大小
a.shape = (3, 2)
print a

(2, 3)
[[1 2]
 [3 4]
 [5 6]]


In [6]:

"""
ndarray.ndim
返回数组的维度数
"""
b = np.arange(24)
print b
print b.ndim
c = b.reshape(2, 3, 4)
print c
print c.ndim

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
1
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3


In [7]:
"""
ndarray.itemsize
返回数组中元素的字节数
"""
d = np.array([[1, 2, 3], [4, 5, 6]], dtype='int16') # int16 占两个字节
print d.itemsize

2


# NumPy 数组创建

In [8]:
"""
numpy.empty(shape, dtype=float, order='C')
@param shape 空数组的形状，整数或元组
@param dtype 数据类型
@Order 'C'为按行的C风格数组，'F'为按列的Fortran风格数组

可以创建为初始化数据的空的numpy数组，数组元素此时为随机值，因为他们未初始化。
"""
e = np.empty((3, 3), dtype=int, order='C')
print e

[[-3458764513820540928 -3458764513820540928           4397793285]
 [          4398024136           4397931696           4381581392]
 [-3458764513820540928                    0           4376795968]]


In [9]:
"""
numpy.zeros(shape, dtype=float, order='C')
创建0元素填充的指定形状的数组
"""
f = np.zeros((3, 3), dtype=float, order='C')
print f

[[ 0.  0.  0.]
 [ 0.  0.  0.]
 [ 0.  0.  0.]]


In [10]:
x = np.zeros((3, 2), dtype=int, order='C')

In [11]:
"""
numpy.ones(shape, dtype=float, order='C')
创建以1填充的指定形状的数组
"""
g = np.ones((3, 3), dtype=float, order='C')
print g

[[ 1.  1.  1.]
 [ 1.  1.  1.]
 [ 1.  1.  1.]]


In [12]:
"""
numpy.asarray(a, dtype=None, order=None)
@param a 任意类型的数组、元组
@param dtype 数据类型，通常会直接使用输入数据的类型
@param order 数组风格

从已存在数据创建数组
"""
arr = [(1, 2), (3, 4)]
h = np.asarray(arr)
print h
print h.dtype

h = np.asarray(arr, dtype='int32')
print h
print h.dtype

[[1 2]
 [3 4]]
int64
[[1 2]
 [3 4]]
int32


In [13]:
"""
将缓冲区解释为一维数组

numpy.frombuffer(buffer, dtype=float, count=-1, offset=0)
@param buffer 任何暴露缓冲区接口的对象
@param dtype 返回的数组数据类型
@param count 读取的数据量，默认-1，即读取所有数据
@param offset 需要读取的起始位置
"""
str = "hello, numpy"
i = np.frombuffer(str, dtype='S1')
print i

['h' 'e' 'l' 'l' 'o' ',' ' ' 'n' 'u' 'm' 'p' 'y']


In [14]:
"""
从可迭代对象构建一个ndarray对象。

numpy.fromiter(iterable, dtype, count=-1)
"""

iterable = (x * x for x in range(5))
j = np.fromiter(iterable, dtype=float)
print j

[  0.   1.   4.   9.  16.]


In [15]:
"""
来自数值范围的数组

numpy.arange(start=0, stop, step=1, dtype)
"""

k = np.arange(5)
print k

[0 1 2 3 4]


In [16]:
"""
在指定的范围内，均匀间隔生成指定数量元素的数组

numpy.linspace(start, stop, num=50, endpoint=True, retstep, dtype)
@param start 
@stop
@num 要生成间隔样例的数量，默认为50
@retstep 如果为True，则返回生成的数组与步长
@dtype 
"""

l = np.linspace(10, 20, 5, retstep=True)
print l

(array([ 10. ,  12.5,  15. ,  17.5,  20. ]), 2.5)


In [17]:
"""
从 base ** start，至 base ** stop，均匀对数间隔，生成指定元素数量的数组

numpy.logspace(start, stop, num=50, endpoint=True, base=10, dtype)
@param start
"""

m = np.logspace(1, 2, num=10)
print m

[  10.           12.91549665   16.68100537   21.5443469    27.82559402
   35.93813664   46.41588834   59.94842503   77.42636827  100.        ]


# Python切片和索引

## 基本切片
将`start`、`stop`、`step` 参数提供给内置的`slice`对象，将`slice`对象传递给数组，提取数组的一部分。

In [18]:
# sample 1
a = np.arange(10)
s = slice(2, 7, 2)
print a[s] # from 2 to 7 step 2: [2 4 6]

[2 4 6]


In [19]:
# sample 2
# 直接将 start:stop:step 传给数组
print a[2:7:2]

[2 4 6]


In [20]:
# sample 3
# 访问单元素
print a[5]  # 5

5


In [21]:
# sample 4 
# start:   从指定索引开始访问剩下所有元素
print a[2:]  # 编程中的区间一般是前闭后开

[2 3 4 5 6 7 8 9]


In [22]:
# sample 5
# start:stop
print a[2:5]  # [2 3 4]

[2 3 4]


**多维数组切片**

In [23]:
"""多维数组切片
"""
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print b
print "[1:] 切片："
print b[1:]

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1:] 切片：
[[4 5 6]
 [7 8 9]]


切片也可以使用`...`，来使选择的元素与原始数组的维度相同。      
**`...`在前按列切分，`...`在后，按行切分。**

In [24]:
print b[1, ...] # 访问第一行（下标从0开始）

[4 5 6]


In [25]:
print b[..., 1] # 访问第一列（下标从0开始）

[2 5 8]


In [26]:
print b[1:, ...]  # 相当于 b[1:]

[[4 5 6]
 [7 8 9]]


In [27]:
print b[..., 1:] # 第一列及剩下列

[[2 3]
 [5 6]
 [8 9]]


## NumPy 高级索引

有两种类型的高级索引：整数和布尔值。

### 整数索引

In [31]:
# sample 1
x = np.array([[1, 2], [3, 4], [5, 6]])
print x
print "------------------"

# [0, 1, 2] 为行索引，表示分别取 0，1，2行
# [0, 1, 0] 为列索引，表示分别取第0，1，0列的元素
# 行列索引合起来表示取(0,0)，(1,1)，(2,0)位置的元素
y = x[[0, 1, 2], [0, 1, 0]]
print y

[[1 2]
 [3 4]
 [5 6]]
------------------
[1 4 5]


In [34]:
# sample 2
x = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
print "our array is: \n %s" % x
print "---------- 取四个角的元素 ----------"
rows = [[0, 0], [3, 3]] # 行索引，取0行两次，3行两次
cols = [[0, 2], [0, 2]] # 列索引，分别取第一个元素与最后一个元素
y = x[rows, cols] # 实现取二维数组的四个角的元素
print y

our array is: 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
---------- 取四个角的元素 ----------
[[ 0  2]
 [ 9 11]]


高级索引和基本索引都可使用切片`:`或省略号`...`与索引数组结合。

In [39]:
# sample 3
x = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
print "our array is: \n %s" % x
print '---'
y = x[1:4, 1:3] # 切片区间前闭后开，所以行写至4，列写至3 
print y
print '---'
z = x[1:4, [1, 2]] # 数组就是原数组的列下标，所以写相应值
print z

our array is: 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
---
[[ 4  5]
 [ 7  8]
 [10 11]]
---
[[ 4  5]
 [ 7  8]
 [10 11]]


### 布尔索引

使用布尔运算过滤数组元素。

In [40]:
x = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
print "our array is : \n %s" % x
print "-----大于5的元素-----"
y = x[x > 5]
print y

our array is : 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
-----大于5的元素-----
[ 6  7  8  9 10 11]


下面的例子使用取补运算符`~`来过滤`NaN`。

In [43]:
x = np.array([np.nan, 1, 2, np.nan, 3, 4, 5])
print x[~np.isnan(x)] # 使用 取补运算符 ~ 来过滤掉nan元素

[ 1.  2.  3.  4.  5.]


过滤掉非复数元素。

In [47]:
x = np.array([1, 2, 3 + 3j, 4, 5 + 6j, 7])
print x[np.iscomplex(x)] # 过滤掉非复数元素

[ 3.+3.j  5.+6.j]
