In [1]:
# 设置 notebook 输出每一行，而不是只有最后一个
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import numpy as np

# 1. 基本操作

## 1.1 创建ndarray

In [2]:
# array 将输入数据（列表，元祖，数组或其他序列类型）转换为 ndarray
# 要么推断出dtype，要么显式指定dtype
# 默认直接复制数据
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

data2 = [[1,2,3,4], [5,6,7,8]]
arr2 = np.array(data2)
arr2

arr2.ndim
arr2.shape
arr2.dtype

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

2

(2, 4)

dtype('int64')

<br>
### 全0数组，全1数组，空数组，单位阵

In [3]:
# 生成全0数组
# 高维参数要表示成tuple
np.zeros(10)
np.zeros_like(arr2)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [4]:
# 生成全1数组
# 高维参数要表示成tuple
np.ones((3,6)) 
np.ones_like(arr2)

array([[ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.]])

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

In [5]:
# 创建新数组，只分配内存空间，但不填充任何值
# 高维参数要表示成tuple
np.empty((2,3,2))
np.empty_like(arr2)

array([[[  1.49166815e-154,  -1.29073640e-231],
        [  2.96439388e-323,   0.00000000e+000],
        [  2.12199579e-314,   6.82116729e-043]],

       [[  6.50693657e-091,   7.49401146e-067],
        [  3.61063138e+174,   2.97980548e+179],
        [  3.99910963e+252,   8.34402697e-309]]])

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [6]:
# 生成单位阵，可以传入一个或两个表示维度的参数
# 参数k= 表示对角线起始索引
# 没有eye_like
np.eye(4,8) 
np.eye(5, 9, k=2)

array([[ 1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.]])

array([[ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.]])

In [7]:
# identity 只能传入一个参数，生成单位阵
np.identity(8) 

array([[ 1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.]])

<br>
### arange

In [8]:
np.arange(15)
np.arange(10, dtype='float64')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

<br><br>
## 1.2 数据类型

In [9]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype='int')
arr1.dtype
arr2.dtype

dtype('float64')

dtype('int64')

<br>
### 显式转化  astype

**调用astype无论如何都会创建出一个新的数组**

In [10]:
arr = np.array([1,2,3,4,5])
arr.dtype

float_arr = arr.astype(np.float64) # astype 参数可以是np.int64, np.float64 等等
float_arr.dtype

dtype('int64')

dtype('float64')

In [11]:
# 浮点数转换成整数，小数被截断
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

arr.astype('int') # astype 参数可以是字符串，会自动被转化

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

array([ 3, -1, -2,  0, 12, 10])

In [12]:
# 字符串转浮点型
num_str = np.array(['1.25', '-9.6', '42'])
num_str.dtype

num_str.astype(float) # astype 参数可以是传统的int, float, str 会自动被转化为numpy相关类型

dtype('<U4')

array([  1.25,  -9.6 ,  42.  ])

In [13]:
int_array = np.arange(10)
calibers = np.array([.22, .250, .465, 60], dtype=np.float64)
int_array.astype(calibers.dtype) # astype 参数可以表示成其他数组dtype的形式

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

<br>
### 数组和标量之间的运算

In [14]:
arr = np.array([[1.,2.,3.],[4.,5,6]])
arr
# 大小相等的数组之间的任何运算都将运算应用到元素级
arr * arr
arr - arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [15]:
# 数组与标量的算数运算也会将那个标量值传播到各个元素
1 / arr
arr ** 0.5
# 不同大小的数组之间的运算叫做广播broadcasting

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

<br><br>
## 1.3 基本的索引和切片

In [16]:
arr = np.arange(10)
arr
arr[5]
arr[5:8]
# 将标量值赋值给一个切片时，给值会自动传播，即广播到整个选区。
arr[5:8] = 12
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

5

array([5, 6, 7])

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [17]:
#####################################
# numpy的数组切片是原始数组的视图，这意味着数据不会被复制！！！
# 视图上的任何修改都会直接反映到源数组上
arr_slice = arr[5:8]
arr_slice[1] = 12345
arr
arr_slice[:] = 64
arr
# 如果想得到ndarray的副本而不是视图，则需要显式地进行复制
# arr[5:8].copy()

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

<br>
### 多维数组索引

In [18]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d[2]
# 选取单个元素
arr2d[0][2]
arr2d[0,2]

array([7, 8, 9])

3

3

In [19]:
# 多维数组中如果省略了后面的索引，则会返回维度低一点的ndarray
arr3d = np.array([[[1,2,3], [4,5,6]], [[7,8,9], [10,11,12]]])
arr3d
arr3d[0]

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
# 标量值和数组都可以赋值给arr3d[0]
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d
arr3d[1,0]

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

array([7, 8, 9])

**注意，上面选取数组子集的例子，返回的数组都是视图**

In [21]:
# 一维切片索引
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [22]:
# 二维切片索引
arr2d
# 同维度
arr2d[:2]
arr2d[:2, 1:]
# 低维度
arr2d[1, :2]
arr2d[2, :1]
# 只有冒号表示选取整个轴
arr2d[:, :1]
# 对切片表达式的赋值也会扩散到整个选区
arr2d[:2, 1:] = 0
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6]])

array([[2, 3],
       [5, 6]])

array([4, 5])

array([7])

array([[1],
       [4],
       [7]])

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

<br>
### 布尔型索引

In [23]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)
names
data

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

array([[ 0.42785476, -0.81785569,  0.1167722 ,  0.09536285],
       [-0.01390487, -1.76404187, -0.69424954, -0.75663605],
       [-0.18043111, -1.58962331, -1.05319292, -0.16315882],
       [-0.1390726 , -0.61639971,  1.62529715, -0.0295201 ],
       [ 0.06478963, -0.98710274,  0.69689205,  0.26519705],
       [-0.64225276, -1.39243174,  0.23866878,  0.21548193],
       [-1.80455225, -0.64487066,  0.10903384, -1.21994495]])

In [24]:
names == 'Bob'
# 假设每个名字对应data数组中的一行
# 选出对应于'Bob'的所有行
data[names == 'Bob']
# 布尔型数组的长度必须跟被索引的轴长度一致
# 可跟切片、整数混合使用
data[names == 'Bob', 2:]
data[names == 'Bob', 3]

array([ True, False, False,  True, False, False, False], dtype=bool)

array([[ 0.42785476, -0.81785569,  0.1167722 ,  0.09536285],
       [-0.1390726 , -0.61639971,  1.62529715, -0.0295201 ]])

array([[ 0.1167722 ,  0.09536285],
       [ 1.62529715, -0.0295201 ]])

array([ 0.09536285, -0.0295201 ])

In [25]:
# 可以用!=表示不等，-表示否定
names != 'Bob'
# data[-(names == 'Bob')]
# DeprecationWarning: numpy boolean negative, the `-` operator, is deprecated, 
# use the `~` operator or the logical_not function instead.
data[np.logical_not(names == 'Bob')]
data[~(names == 'Bob')]

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

array([[-0.01390487, -1.76404187, -0.69424954, -0.75663605],
       [-0.18043111, -1.58962331, -1.05319292, -0.16315882],
       [ 0.06478963, -0.98710274,  0.69689205,  0.26519705],
       [-0.64225276, -1.39243174,  0.23866878,  0.21548193],
       [-1.80455225, -0.64487066,  0.10903384, -1.21994495]])

array([[-0.01390487, -1.76404187, -0.69424954, -0.75663605],
       [-0.18043111, -1.58962331, -1.05319292, -0.16315882],
       [ 0.06478963, -0.98710274,  0.69689205,  0.26519705],
       [-0.64225276, -1.39243174,  0.23866878,  0.21548193],
       [-1.80455225, -0.64487066,  0.10903384, -1.21994495]])

In [26]:
# &表示and， |表示or
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

array([ True, False,  True,  True,  True, False, False], dtype=bool)

array([[ 0.42785476, -0.81785569,  0.1167722 ,  0.09536285],
       [-0.18043111, -1.58962331, -1.05319292, -0.16315882],
       [-0.1390726 , -0.61639971,  1.62529715, -0.0295201 ],
       [ 0.06478963, -0.98710274,  0.69689205,  0.26519705]])

通过**布尔型索引**选取数组中的数据，将总是创建数据的**副本**，即使返回一模一样的数组也是如此！！！

Python关键字**and和or**在布尔型数组中**无效**

In [27]:
data < 0
# 将data中所有负值都设置为0
data[data < 0] = 0
data
# 通过一维布尔数组设置整行或列的值
data[names != 'Joe'] = 7
data

array([[False,  True, False, False],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True, False,  True],
       [False,  True, False, False],
       [ True,  True, False, False],
       [ True,  True, False,  True]], dtype=bool)

array([[ 0.42785476,  0.        ,  0.1167722 ,  0.09536285],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.62529715,  0.        ],
       [ 0.06478963,  0.        ,  0.69689205,  0.26519705],
       [ 0.        ,  0.        ,  0.23866878,  0.21548193],
       [ 0.        ,  0.        ,  0.10903384,  0.        ]])

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.        ,  0.23866878,  0.21548193],
       [ 0.        ,  0.        ,  0.10903384,  0.        ]])

<br>
### 花式索引

是指利用整数数组进行索引

In [28]:
arr = np.empty((8,4))
for i in range(8):
    arr[i] = i
arr
# 以特定顺序选取行子集，只需传入用于指定顺序的列表或ndarray
arr[[4,3,0,6]]
arr[[-3, -5, -7]]

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [29]:
# 一次传入多个索引数组会有一点特别，返回的是一个一维数组
# 其中的元素对应各个索引元祖
arr = np.arange(32).reshape((8,4))
arr

# 选出元素(1,0),(5,3),(7,1),(2,2)
arr[[1,5,7,2], [0,3,1,2]]

# 要选取对应的行列子集
arr[[1,5,7,2]][:, [0,3,1,2]]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

array([ 4, 23, 29, 10])

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

**np.ix_**函数，可以将两个一维整数数组转换为一个用于选取方形区域的索引器

In [30]:
arr[np.ix_([1,5,7,2],[0,3,1,2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

<br><br>
## 1.4 数组转置和轴对换

转置是重塑的一种特殊形式，返回的是源数据的**视图**（不会进行任何复制操作）

transpose方法，T属性

In [31]:
arr = np.arange(15).reshape((3,5))
arr
arr.T

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [32]:
# 计算矩阵内积
arr = np.random.randn(6,3)
np.dot(arr.T, arr)

array([[ 3.52427497,  0.84926246, -2.6955602 ],
       [ 0.84926246,  6.61997885,  1.30190311],
       [-2.6955602 ,  1.30190311,  5.91162759]])

In [33]:
# 对于高维数组，transpose需要得到一个由编号组成的元祖才能对这些轴进行转置
arr = np.arange(16).reshape((2,2,4))
arr
arr.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [34]:
# 轴对换
arr
# 对换轴1和轴2（轴从0开始编号）
arr.swapaxes(1,2)

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])