numpy用c语言编写的算法库可以直接操作内存而不必进行内存检查  
因此效率更高 使用内存更少  
下面的例子说明了numpy数组和python内置数组操作的性能差距

In [4]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [5]:
%time for _ in range(10): my_arr2=my_arr*2

Wall time: 19.8 ms


In [6]:
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

Wall time: 952 ms


In [7]:
data=np.random.randn(2,3)
data

array([[ 0.71462148, -2.24408573,  0.20755317],
       [-0.00575017,  0.56329364, -0.88581036]])

In [8]:
data*10

array([[  7.14621478, -22.44085729,   2.07553174],
       [ -0.05750165,   5.63293642,  -8.85810357]])

In [10]:
data+data

array([[ 1.42924296, -4.48817146,  0.41510635],
       [-0.01150033,  1.12658728, -1.77162071]])

ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的。每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype

In [12]:
data.shape

(2, 3)

In [13]:
data.dtype

dtype('float64')

# 创建ndarray

将list转换为ndarray

In [14]:
data1=[6, 7.5, 8, 0, 1]
arr1=np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [15]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2=np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
arr2.ndim

2

In [17]:
arr2.shape

(2, 4)

In [18]:
arr2.dtype

dtype('int32')

创建任意长度全部是1或者0的数组

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [22]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [23]:
np.empty((2,3,2))

array([[[1.44588726e-311, 3.16202013e-322],
        [0.00000000e+000, 0.00000000e+000],
        [8.90104238e-307, 8.61408109e-067]],

       [[2.83181850e-056, 1.43666238e-071],
        [8.24206529e-043, 2.10897554e-052],
        [1.90269051e-052, 2.54536611e-052]]])

In [20]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

numpy内置的和python range()函数相同作用

In [24]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

# ndarray的数据类型

dtype是一种特殊的对象  
它含有ndarray将一块内存解释为何种数据的所需信息

In [27]:
array1=np.array([1.1,2.2,3.3],dtype=np.float64)
array1

array([1.1, 2.2, 3.3])

In [28]:
array1=np.array([1.1,2.2,3.3],dtype=np.int32)
array1

array([1, 2, 3])

In [29]:
array1=np.array([1.1,2.2,3.3],dtype=np.str)
array1

array(['1.1', '2.2', '3.3'], dtype='<U3')

astype()将一个数组从一个dtype转换到另一个dtype  
注意: 调用astype()总是会创建一个新数组

In [30]:
arr=np.array([1,2,3,4,5])
arr.dtype

dtype('int32')

In [31]:
float_arr=arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [32]:
float_arr.dtype

dtype('float64')

In [34]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

浮点数进行转换会产生截断

In [38]:
array=arr.astype(np.int32)
array

array([ 3, -1, -2,  0, 12, 10])

字符串转化为双精度浮点

In [39]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

# NumPy数组的运算

numpy数组即使不编写循环也能够进行批量计算  
称之为矢量化(vectorization)

In [40]:
arr=np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [41]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [42]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [43]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [45]:
arr**0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [46]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

shape相同的数组比较会生成布尔数组

In [48]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

不同大小数组之间的计算叫**广播(broadcasting)**

# 基本的索引和切片

In [50]:
arr=np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
arr[5]

5

In [55]:
arr[5:8]

array([5, 6, 7])

当你将标量赋值给一个切片时 该值会自动广播到整个区块  
这就是广播(broadcasting)  
并且数组的切片是原数组的视图 这意味着数据不会被复制  
并且**视图上任何修改都会直接反映到原数组上**

In [56]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [57]:
arr_slice=arr[5:8]
arr_slice

array([12, 12, 12])

修改slice中的数组后 原数组的数据也被修改了

In [58]:
arr_slice[1]=123456
arr

array([     0,      1,      2,      3,      4,     12, 123456,     12,
            8,      9])

如果你想要复制一份副本而非视图 就要明确进行复制操作  
如arr[5:8].copy()

In [60]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[1]

array([4, 5, 6])

In [61]:
arr2d[0][2]

3

In [62]:
arr2d[0,2]

3

In [63]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [64]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [65]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

# 切片索引

In [66]:
arr

array([     0,      1,      2,      3,      4,     12, 123456,     12,
            8,      9])

In [67]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [68]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [79]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [70]:
arr2d[1,:2] # 第二行的前两列

array([4, 5])

In [71]:
arr2d[:2,2] # 第三列的前两行

array([3, 6])

In [72]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

# 布尔型索引

In [73]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [74]:
data=np.random.randn(7,4)

In [75]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [90]:
data

[array([False,  True,  True, False,  True,  True,  True])]

数组的比较运算也是矢量化  
names和bob的比较运算会产生一个布尔型数组

In [91]:
names=='Bob'

array([ True, False, False,  True, False, False, False])

In [92]:
data[names=='Bob']

TypeError: only integer scalar arrays can be converted to a scalar index

~符号进行反转条件

In [89]:
data[~(names=='Bob')]

TypeError: only integer scalar arrays can be converted to a scalar index

In [88]:
cond = names == 'Bob'
data[~cond]

TypeError: only integer scalar arrays can be converted to a scalar index