# Learn Numpy array 
## Create ndarray

In [6]:
import numpy as np
data1 = [1,2,3,4,5.5]
arr1 = np.array(data1)

In [7]:
arr1

array([ 1. ,  2. ,  3. ,  4. ,  5.5])

嵌套序列将会被转换为一个多维数组

In [3]:
data2 = [[1,2,3],[4,5,6]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
arr2.shape

(2, 3)

除非显示说明，np.array会为新建数组推断一个适合数据类型，保存在dtype对象中

In [9]:
print("dtyde of arr1:", arr1.dtype)
print("dtyde of arr2:", arr2.dtype)

dtyde of arr1: float64
dtyde of arr2: int32


除np.array之外，其他创建数组的函数：zeros和ones，empty可创建没有任何具体值的数组，只需传入一个表形状的元组

In [11]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [12]:
np.zeros((3,4))

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [13]:
np.empty((2,2))

array([[  1.20370394e-311,   7.52318544e-313],
       [  1.20370967e-311,   3.40609449e-057]])

arange是Python内置函数range的数组版

In [14]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

## 数组和标量之间运算
大小相等的数组之间的任何算术运算都会将运算应用到元素级

In [15]:
arr = np.array([[1,2,3],[1,2,3]])
arr

array([[1, 2, 3],
       [1, 2, 3]])

In [16]:
arr*arr

array([[1, 4, 9],
       [1, 4, 9]])

In [17]:
arr-arr

array([[0, 0, 0],
       [0, 0, 0]])

同样，数组与标量的算术运算也会将标量值传播到元素级

In [18]:
1/arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 1.        ,  0.5       ,  0.33333333]])

In [19]:
arr**0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 1.        ,  1.41421356,  1.73205081]])

## 基本的索引和切片
一维数组跟python列表功能差不多，最重要的区别在于，数组切片是原始数组的视图，这意味着数据不会被复制，视图上任何修改都会直接反映到源数组上


In [21]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
arr_slice = arr[5:8]
arr_slice

array([5, 6, 7])

In [28]:
arr_slice[1] = 123

In [29]:
arr

array([  0,   1,   2,   3,   4,   5, 123,   7,   8,   9])

In [30]:
arr_slice[:] = 99
arr

array([ 0,  1,  2,  3,  4, 99, 99, 99,  8,  9])

如果想要得到ndarray切片的副本而非视图，就需要显示进行复制操作，例如arr[5:8].copy()。

In [31]:
arr_copy = arr[:3].copy()
arr_copy

array([0, 1, 2])

In [32]:
arr_copy[0] = 111
print("arr_copy:",arr_copy)
print("arr:",arr)

arr_copy: [111   1   2]
arr: [ 0  1  2  3  4 99 99 99  8  9]


对于二维数组，各索引位置上元素不再是标量而是一维数组：

In [33]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[2]

array([7, 8, 9])

可以对各个元素递归访问，也可以传入逗号隔开的索引列表来选取单个元素，也就是说下面的两种方式等价：

In [37]:
print("arr2d[0][2]:", arr2d[0][2])
print("arr2d[0, 2]:", arr2d[0, 2])

arr2d[0][2]: 3
arr2d[0, 2]: 3


## 布尔型索引

假设我们有一个用于存储数据的数组以及一个存储姓名的数组（含有重复项）。在这里，我将使用numpy.random中randn函数生成一些正态分布随机函数：

In [44]:
from numpy.random import randn
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = randn(7,4)

In [45]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'],
      dtype='<U4')

In [41]:
data

array([[-1.07440548, -0.95719953, -0.52148473, -0.21305393],
       [-0.22935218,  0.86079206, -0.25982578, -1.41995385],
       [ 3.46728305,  0.49620402,  0.92699947,  1.46095983],
       [ 1.00721533, -0.33909056,  1.69484856, -1.18138655],
       [ 0.70746698,  2.85446335, -1.56820173,  1.47852779],
       [ 0.57163377, -1.85855361, -0.95024509,  0.67733386],
       [-0.63102117,  2.02103172,  2.826838  , -1.31368219]])

假设每个名字对应data数组中一行，而我们想要选出对应于名字“Bob”的所有行。数组比较运算（如==）也是矢量化。因此，对names和字符串“Bob”的比较运算会产生一个布尔型数组：

In [46]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

这个布尔型数组用于数组索引

In [47]:
data[names == 'Bob']

array([[ 1.59265059,  2.40227713, -0.13666928,  0.57557549],
       [ 0.53745078,  0.09820199,  1.37651373,  0.26785155]])

通过布尔型数组设置值是一种经常用到的手段，为了将data中所有负值设置为0，只需：

In [49]:
data[data < 0] = 0
data

array([[ 1.59265059,  2.40227713,  0.        ,  0.57557549],
       [ 0.74968234,  0.        ,  0.        ,  0.41809527],
       [ 0.22290548,  0.82506414,  0.        ,  0.        ],
       [ 0.53745078,  0.09820199,  1.37651373,  0.26785155],
       [ 0.        ,  0.        ,  1.41775881,  0.        ],
       [ 0.44012154,  1.33045292,  1.41382821,  0.        ],
       [ 0.        ,  0.20813911,  1.28061121,  0.34948186]])

## 花式索引
花式索引(Fancy indexing)是一个Numpy术语，它指的是利用整数数组进行索引，假设我们有一个8 * 4数组

In [50]:
arr = np.empty((8, 4))
arr

array([[  2.41907520e-312,   2.01589600e-312,   2.35541533e-312,
          2.56761491e-312],
       [  1.01855798e-312,   6.79038654e-313,   6.79038653e-313,
          1.03977794e-312],
       [  2.12199579e-313,   2.41907520e-312,   2.33419537e-312,
          8.48798317e-313],
       [  2.05833592e-312,   2.41907520e-312,   2.10077583e-312,
          2.37663529e-312],
       [  1.23075756e-312,   9.33678148e-313,   2.41907520e-312,
          2.01589600e-312],
       [  2.35541533e-312,   2.56761491e-312,   2.12199579e-313,
          2.41907520e-312],
       [  2.33419537e-312,   8.48798317e-313,   2.05833592e-312,
          2.41907520e-312],
       [  7.21478569e-313,   2.05833592e-312,   2.41907520e-312,
          1.20317161e-311]])

In [51]:
for i in range(8):
    arr[i] = i

In [52]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

为了选取特定顺序子集，只需传入指定顺序的整数列表或ndarray即可：

In [53]:
arr[[4,3,0,6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

一次传入多个索引数组，返回一个一维数组，其中元素对应各个索引元组

In [54]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [55]:
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

选取元素为(1,0)、（5,3）、（7,1）、（2,2）。如果想选取行列子集的矩形区域，可用如下办法：

In [58]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

另一个办法是使用np.ix_函数，它可以将两个一维整数数组转换为选取方形区域的所引器：