**ndarray：一种多维数组对象**
* 一个通用的同构数据多维容器
* 所有元素必须是相同类型的
* 每个数组都有一个shape(一个表示各维度大小的元组)和dtype（一个用于说明数组数据类型的对象）

In [1]:
import numpy as np
data = np.array([[0.9526,-0.246,-0.8856],
        [0.5639,0.2379,0.9104]])

In [2]:
data

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [3]:
data * 10

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [4]:
data + data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

In [5]:
data.shape

(2, 3)

In [6]:
data.dtype

dtype('float64')

** 创建ndarray **

创建数组最简单的办法就是使用array函数，它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。



In [7]:
data1 = [6,7.5,8,0,1]

In [8]:
arr1 = np.array(data1)

In [9]:
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [10]:
# 嵌套序列（一组等长序列组成的列表）将会被转换为一个多维数组
data2 = [[1,2,3,4],[5,6,7,8]]

In [11]:
arr2 = np.array(data2)

In [12]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [13]:
arr2.ndim

2

In [14]:
arr2.shape

(2, 4)

除非显示说明，np.array会尝试为新建的数组推断出一个较为合适的数据类型，，保存在一个特殊的dtype对象中。 

In [15]:
arr1.dtype

dtype('float64')

In [16]:
arr2.dtype

dtype('int32')

In [17]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [18]:
np.zeros((3,6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [19]:
np.empty([2,3,2])

array([[[  9.78249979e-322,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000]],

       [[  0.00000000e+000,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000]]])

In [20]:
# arange是Python内置函数range的数组版
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

**ndarray的数据类型**
* dtype是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息。
* 通过astype方法显示地转换为dtype

In [21]:
arr1 = np.array([1,2,3],dtype=np.float64)

In [22]:
arr2 = np.array([1,2,3],dtype=np.int32)

In [23]:
arr1.dtype

dtype('float64')

In [24]:
arr2.dtype

dtype('int32')

In [25]:
arr = np.array([1,2,3,4,5])

In [26]:
arr.dtype

dtype('int32')

In [27]:
# 整数被转换成了浮点数，如果浮点数转换成整数，则小数部分将会被截断。
float_arr = arr.astype(np.float64)

In [28]:
float_arr.dtype

dtype('float64')

In [29]:
arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])

In [30]:
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [31]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [32]:
# 如果某些字符串数组表示的全是数字，也可以用astype将其转换为数值形式
numeric_strings = np.array(['1.25','-9.6','42'],dtype=np.string_)

In [33]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [34]:
int_array = np.arange(10)

In [35]:
calibers = np.array([.22,.270,.357,.380,.44,.50],dtype=np.float64)

In [36]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

In [37]:
empty_unit32 = np.empty(8,dtype='u4')

In [38]:
empty_unit32

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

In [39]:
arr = np.arange(10)

In [40]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
arr[5]

5

In [42]:
arr[5:8]

array([5, 6, 7])

In [43]:
arr[1:3]

array([1, 2])

In [44]:
arr[5:8] = 12

In [45]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [46]:
arr_slice = arr[5:8]

In [49]:
# 数组切片是原是数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上：
arr_slice[1] = 12345

In [50]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [52]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [53]:
arr2d[2]

array([7, 8, 9])

In [54]:
# 可以对各个元素进行递归访问，也可以传入一个逗号隔开的索引列表来选取单个元素
arr2d[0][2]

3

In [55]:
arr2d[0,2]

3

In [62]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])

In [63]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [65]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [67]:
# 标量值和数组都可以被赋值给arr3d[0]
old_values = arr3d[0].copy()

In [68]:
arr3d[0] = 42

In [69]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [70]:
arr3d[0] = old_values

In [71]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [72]:
arr3d[1,0]

array([7, 8, 9])

**切片索引**
切片使用2个冒号分割的3个数字来完成：
* 第一个数字表示切片的开始位置（默认为0）
* 第二个数字表示切片截止（**但不包含**）位置（默认为列表长度）
* 第三个数字表示切片的步长（默认为1），当步长省略时可以顺便省略最后一个冒号。


In [73]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [74]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [75]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [76]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [79]:
#可以看出，它是沿着第0轴（即第一个轴）切片的，也就是说，切片是沿着一个轴向选取元素的。
# 可以一次传入多个切片，就像传入多个索引一样
arr2d[:2,0:2]

array([[1, 2],
       [4, 5]])

In [80]:
arr2d[1,:2]

array([4, 5])

In [81]:
arr2d[0,:2]

array([1, 2])

**布尔索引**

In [82]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])

In [84]:
data = np.random.randn(7,4)

In [85]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

In [86]:
data

array([[ 0.92653869, -0.21183583,  0.27692137,  0.66674135],
       [ 1.34346885, -0.57926229,  0.04765212,  0.65581721],
       [-0.83853183,  0.40528855, -0.65008315,  0.11685827],
       [-0.16417832,  0.27290168,  0.73566887,  0.40927703],
       [-0.31211577, -0.67893661,  0.26663138,  0.48591635],
       [ 0.68475728,  0.43450061,  0.13567172,  0.83861335],
       [-0.95429704, -0.40554127, -2.38043516,  1.33213301]])

In [87]:
# 假设每个名字对应data数组中的一行，对Names和字符串“Bob”的比较运算将会产生一个布尔型数组
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [88]:
# 这个数组可以用于数组索引
data[names=='Bob']

array([[ 0.92653869, -0.21183583,  0.27692137,  0.66674135],
       [-0.16417832,  0.27290168,  0.73566887,  0.40927703]])

In [89]:
# 布尔型数组的长度必须跟被索引的轴长度一致
data[names=='Bob',2:]

array([[ 0.27692137,  0.66674135],
       [ 0.73566887,  0.40927703]])

In [90]:
data[names=='Bob',3]

array([ 0.66674135,  0.40927703])

In [91]:
data[names=='Bob',3].shape

(2,)

In [92]:
names !=  'Bob'

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [93]:
data[names != 'Bob']

array([[ 1.34346885, -0.57926229,  0.04765212,  0.65581721],
       [-0.83853183,  0.40528855, -0.65008315,  0.11685827],
       [-0.31211577, -0.67893661,  0.26663138,  0.48591635],
       [ 0.68475728,  0.43450061,  0.13567172,  0.83861335],
       [-0.95429704, -0.40554127, -2.38043516,  1.33213301]])

In [96]:
data[~(names == 'Bob')]

array([[ 1.34346885, -0.57926229,  0.04765212,  0.65581721],
       [-0.83853183,  0.40528855, -0.65008315,  0.11685827],
       [-0.31211577, -0.67893661,  0.26663138,  0.48591635],
       [ 0.68475728,  0.43450061,  0.13567172,  0.83861335],
       [-0.95429704, -0.40554127, -2.38043516,  1.33213301]])

In [97]:
mask = (names == 'Bob') |(names =='Will')

In [98]:
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [99]:
data[mask]

array([[ 0.92653869, -0.21183583,  0.27692137,  0.66674135],
       [-0.83853183,  0.40528855, -0.65008315,  0.11685827],
       [-0.16417832,  0.27290168,  0.73566887,  0.40927703],
       [-0.31211577, -0.67893661,  0.26663138,  0.48591635]])

In [100]:
data [ data < 0] =0

In [101]:
data

array([[ 0.92653869,  0.        ,  0.27692137,  0.66674135],
       [ 1.34346885,  0.        ,  0.04765212,  0.65581721],
       [ 0.        ,  0.40528855,  0.        ,  0.11685827],
       [ 0.        ,  0.27290168,  0.73566887,  0.40927703],
       [ 0.        ,  0.        ,  0.26663138,  0.48591635],
       [ 0.68475728,  0.43450061,  0.13567172,  0.83861335],
       [ 0.        ,  0.        ,  0.        ,  1.33213301]])

**花式索引**
指的是利用整数数组进行索引

In [102]:
arr = np.empty((8,4))

In [103]:
for i in range(8):
    arr[i] = i

In [104]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [106]:
# 以特定顺序选取行子集，传入一个用于指定顺序的整数列表或者ndarray即可：
arr[[4,3,0,6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [109]:
arr[[-6]]

array([[ 2.,  2.,  2.,  2.]])

In [112]:
# 一次传入多个索引数组会有一点特别，它返回的是一个一维数组。
arr = np.arange(32).reshape((8,4))

In [113]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [114]:
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

In [116]:
# 一次传入多个索引数组会有一点特别，它返回的是一个一维数组。
arr[[1,5,7,2],[0,3,1,2]].shape

(4,)

In [126]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 5,  7,  5,  6],
       [21, 23, 21, 22],
       [29, 31, 29, 30],
       [ 9, 11,  9, 10]])