# 7. Numpy入门

* 7.0 Numpy的功能
* 7.1 ndarray的创建
* 7.2 ndarray的属性
* 7.3 数据类型dtype及其操作
* 7.4 向量化操作
* 7.5 索引与数据选取和访问
* 7.6 Numpy库支持的数学运算

## 7.0 Numpy 的功能

Numpy（Numerical Python的缩写）是高性能**科学计算与数据分析**的基础包，提供了非常高效的基础数据结构和一系列矢量运算工具，使得数据分析的效率大大提升，同时便于与其他编程语言编写的模块进行集成。

Numpy 中的基本数据类型为多维数组ndarray，可以完成向量和矩阵的基本操作。

Numpy的特性有：
* 矢量（向量）运算能力
* 数组运算函数
* 磁盘读写工具
* 矩阵运算和线性代数工具
* 与C、C++、Fortran等集成工具

In [1]:
# 使用Numpy中的多维数组进行运算的例子
import numpy as np
a = np.arange(1,7).reshape((2,3))
b = np.ones_like(a)
a, b, a + b

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[1, 1, 1],
        [1, 1, 1]]),
 array([[2, 3, 4],
        [5, 6, 7]]))

## 7.1 多维数组 ndarray 的创建

多维数组ndarray是一个快速而灵活的大数据集容器。创建多维数组和使用相关功能之前要引入numpy包。由于numpy定义了大量的函数，我们一般不使用from numpy import * 这种方法，以避免命名冲突。

In [1]:
import numpy as np  # 命名惯例

本节所有的代码都假定已经引入numpy，并按照命名的习惯简称为np。

当然也可以用其他的别名，但遵循这个规范可以使得代码更容易读。

数组可以使用任何序列来创建,通过调用numpy的array方法可以方便的建立一个多维数组。
例如：

In [3]:
arr1 = np.array([1,2,3,4,5])
arr2 = np.array(range(5))
arr3 = np.array((5,6,7,8,9))  # 注意参数为一个元组
arr1, arr2, arr3

(array([1, 2, 3, 4, 5]), array([0, 1, 2, 3, 4]), array([5, 6, 7, 8, 9]))

ndarray是一个同构的数据容器，所有的数据都是一个类型。

以上创建的都是一维数组，当然ndarray可以创建多维的数组，这就需要使用嵌套的序列结构。

In [4]:
arr4=np.array([[1,2,3,4,5],[4,5,6,7,8]])
arr4

array([[1, 2, 3, 4, 5],
       [4, 5, 6, 7, 8]])

创建ndarray的几种选择：

* 使用已有的序列创建

* 使用已有的多维数组进行变形（reshape）

* 使用numpy的数组创建函数创建规则矩阵

* 使用已有的多维数组通过运算产生新的数组

数组创建函数：

* asarray  将对象转化为ndarray

* arange  类似于range函数

* ones, ones_like  生成全1数组

* zeros, zeros_like  生成全0数组

* eye, identity  生成单位阵

In [2]:
np.asarray([[1, 2, 3, 4, 5],[4, 5, 6, 7, 8]])

array([[1, 2, 3, 4, 5],
       [4, 5, 6, 7, 8]])

In [7]:
print(np.eye(3), np.identity(4))
np.I((1, 2))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


AttributeError: module 'numpy' has no attribute 'I'

In [10]:
# 1st = 1 数字开头包错的

In [6]:
np.arange(10), np.arange(1, 10, 2)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([1, 3, 5, 7, 9]))

In [11]:
np.arange(0, 2.5, 0.2)  # arange与range的一个区别在步长上

array([0. , 0.2, 0.4, 0.6, 0.8, 1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4])

In [8]:
np.ones((2,3,2)), np.ones_like(arr4)  # _like指的是形状相同

(array([[[1., 1.],
         [1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.],
         [1., 1.]]]),
 array([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]))

In [9]:
np.zeros((2,3)), np.zeros_like(arr3)

(array([[0., 0., 0.],
        [0., 0., 0.]]),
 array([0, 0, 0, 0, 0]))

In [10]:
np.eye(4), np.identity(4)  # 注意eye的发音

(array([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]),
 array([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]))

### 更多特殊矩阵的创建

* 等差序列，np.linspace，np.arange

* 等比序列, np.logspace, 

* diag函数创建对角线为特定列表的矩阵或返回对角线列表

In [11]:
print(np.linspace(0, 5, 11))  # 第三个参数为序列点的个数，默认包含终点
print(np.arange(1, 2, 0.1))  # 第三个参数为步长，序列不包含终点，步长可以为浮点数

[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]
[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9]


In [12]:
np.logspace(1, 10, 10)  # 第三个参数为序列点的个数，默认包含终点

array([1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06, 1.e+07, 1.e+08,
       1.e+09, 1.e+10])

In [13]:
np.logspace(0, 10, num = 11, base = 2)  # num默认为50

array([1.000e+00, 2.000e+00, 4.000e+00, 8.000e+00, 1.600e+01, 3.200e+01,
       6.400e+01, 1.280e+02, 2.560e+02, 5.120e+02, 1.024e+03])

In [14]:
# np.diag 既可以用于创建对角线矩阵，也可以用来获取对角线元素
x1 = np.diag([1, 2, 3, 4])  # 创建对角线矩阵
x1

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [15]:
x2 = np.diag([1, 2, 3, 4], k= -1)  # 可以指定哪一条对角线
x2

array([[0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0]])

In [16]:
x1 = np.arange(25).reshape((5,5))
print(x1)
z1 = np.diag(x1)  # 获取对角线元素列表
z2 = np.diag(x1, k = 2)
z1, z2

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


(array([ 0,  6, 12, 18, 24]), array([ 2,  8, 14]))

### 练习2. 练习各种特殊矩阵的构建

1. 创建从0.01到0.5步长为0.01的序列；

2. 创建一个从1到2000，共有11个点的等比数列；

3. 创建一个对角线矩阵，对角线内容为2,0,2,2

In [3]:
import numpy as np
print(np.arange(0.01, 0.51, 0.01))
print(np.logspace(1, np.log10(2000), 11))

[0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13 0.14
 0.15 0.16 0.17 0.18 0.19 0.2  0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28
 0.29 0.3  0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4  0.41 0.42
 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.5 ]


In [7]:
# 4*4矩阵，对角
array1 = np.ones((4, 4))
for i in range(len(array1)):
    array1[i, i] = 0
array1



array([[0., 1., 1., 1.],
       [1., 0., 1., 1.],
       [1., 1., 0., 1.],
       [1., 1., 1., 0.]])

In [13]:
np.logspace(0, 4, 9, base=3).reshape((3, 3)), np.logspace(0, np.log10(81), 9).reshape((3, 3)), np.logspace(0, 1, 9, base=91).reshape((3, 3))

(array([[ 1.        ,  1.73205081,  3.        ],
        [ 5.19615242,  9.        , 15.58845727],
        [27.        , 46.7653718 , 81.        ]]),
 array([[ 1.        ,  1.73205081,  3.        ],
        [ 5.19615242,  9.        , 15.58845727],
        [27.        , 46.7653718 , 81.        ]]),
 array([[ 1.        ,  1.75743865,  3.08859062],
        [ 5.42800854,  9.53939201, 16.76489625],
        [29.46327669, 51.7799013 , 91.        ]]))

## 7.2 ndarray的属性

一个多维数组（multi-dimensional array, ndarray)的属性主要有shape（形状）、ndim（维度数量）、dtype（数据类型）。

In [17]:
arr1.shape  # 注意这是一个元组

(5,)

**注意：**多维数组的shape属性总是返回一个元组。当数组只有一个维度时，返回只有一个元素的元组。上例中，不要认为返回值为(5,1)，因为数组是一维的，并不是5行1列。不要和矩阵弄混淆了。

In [18]:
arr1.ndim

1

In [19]:
arr4.shape, arr4.ndim  # 与arr1对比一下

((2, 5), 2)

In [20]:
arr1.dtype

dtype('int32')

通过改变shape属性，可以改变数组的形状。当然也可以通过别的方式改变数组的形状。

In [21]:
arr4.shape=(5,2)  # arr4形状改变了
arr4

array([[1, 2],
       [3, 4],
       [5, 4],
       [5, 6],
       [7, 8]])

In [22]:
arr4.T, arr4.transpose()  # 用转置的办法

(array([[1, 3, 5, 5, 7],
        [2, 4, 4, 6, 8]]),
 array([[1, 3, 5, 5, 7],
        [2, 4, 4, 6, 8]]))

In [23]:
arr4  # arr4本身形状没有变

array([[1, 2],
       [3, 4],
       [5, 4],
       [5, 6],
       [7, 8]])

如果你不想要改变原对象的形状，只是想得到一个新的对象，可以使用reshape方法

In [24]:
arr4.reshape((5,2)), arr4.reshape((2,5)) # 注意参数形式

(array([[1, 2],
        [3, 4],
        [5, 4],
        [5, 6],
        [7, 8]]),
 array([[1, 2, 3, 4, 5],
        [4, 5, 6, 7, 8]]))

虽然我们可以直接修改shape和dtype属性，但是却不要直接修改dtype属性。

不能修改ndim属性。

In [25]:
print(arr4.dtype)
arr4.dtype = np.float32
arr4  # 这是你想要的结果吗？

int32


array([[1.4e-45, 2.8e-45],
       [4.2e-45, 5.6e-45],
       [7.0e-45, 5.6e-45],
       [7.0e-45, 8.4e-45],
       [9.8e-45, 1.1e-44]], dtype=float32)

* 修改dtype属性会带来什么后果？

  - 数据及其形式没有改变，解释的方式发生了改变

* 如何修改数据类型？

  - 使用astype方法

In [12]:
arr4=np.array([[1,2,3,4,5],[4,5,6,7,8]])
arr4.astype(np.float32)  # 得到一个新对象

array([[1., 2., 3., 4., 5.],
       [4., 5., 6., 7., 8.]], dtype=float32)

In [13]:
l = []
for i in range(1, 4):
    l.append([i] * 7)
arr = np.array(l)

arr, arr.transpose(), arr.reshape((3, 1, 7))

(array([[1, 1, 1, 1, 1, 1, 1],
        [2, 2, 2, 2, 2, 2, 2],
        [3, 3, 3, 3, 3, 3, 3]]),
 array([[1, 2, 3],
        [1, 2, 3],
        [1, 2, 3],
        [1, 2, 3],
        [1, 2, 3],
        [1, 2, 3],
        [1, 2, 3]]),
 array([[[1, 1, 1, 1, 1, 1, 1]],
 
        [[2, 2, 2, 2, 2, 2, 2]],
 
        [[3, 3, 3, 3, 3, 3, 3]]]))

###  ndarray的其他属性

多维数组对象的其他属性还有：

* size 大小，元素的总数

* itemsize  每个元素占用字节数

* nbytes  数组占用字节总数

In [14]:
arr4.size, arr4.itemsize, arr4.nbytes

(10, 8, 80)

### 练习3
* 获取arr3的形状

* 获取arr3的大小，占用的内存空间大小

## 7.3 数据类型dtype及其操作

ndarray的数据类型dtype本身是一个特殊的对象，通过对dtype进行操作可以使得多维数组既能够满足数据同质性的要求，又能够灵活的应对各种数据场景，同时方便与低级计算语言对接。dtype本身是一个类，每个dtype对象也有自己的属性。

In [28]:
dt1 = arr1.dtype
dt1.type, dt1.str, dt1.itemsize

(numpy.int32, '<i4', 4)

除了前面看到的int32,dtype还有以下这些类型：

* int8,int16,int32,int64  有符号整型    （8、16、32、64 分别代表8位、16位、32位、64位）
* uint8,uint16,uint32,uint64  无符号整型
* float16,float32,float64,float128 浮点数


* complex64, complex128, complex256  复数
* bool  bool值
* string_  字符串
* unicode_  unicode字符串

需要了解：一个字节为8位。

In [29]:
arr5 = np.arange(12)
arr5

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [30]:
arr5.dtype

dtype('int32')

In [31]:
arr5.astype(np.float32)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.],
      dtype=float32)

在创建ndarray的时候，也可以指定dtype，否则由系统自动决定。

In [32]:
arr6 = np.array([[1, 2, 3, 4, 5],[4, 5, 6, 7, 8]], dtype = np.float32)
arr6

array([[1., 2., 3., 4., 5.],
       [4., 5., 6., 7., 8.]], dtype=float32)

In [33]:
arr7 = np.array([[1, 2, 3, 4, 5], [4, 5, 6, 7, 8]], dtype = 'f4')
arr7

array([[1., 2., 3., 4., 5.],
       [4., 5., 6., 7., 8.]], dtype=float32)

可以从上面的两个例子中看到，使用np.float32与代码'f4'是等价的。不过，考虑到程序的可读性，不建议使用后者——即简写代码的形式。

In [34]:
names = np.array(['Jack', 'John', 'Kate', 'Klein'], dtype = 'S10')  # 字节串类型
names, names.dtype

(array([b'Jack', b'John', b'Kate', b'Klein'], dtype='|S10'), dtype('S10'))

In [35]:
names2 = np.array(['张三', '李四', '王五', '赵六'], dtype = 'unicode_')  # unicode类型(对应于标准的字符串)，注意不能使用string类型
names2, names2.dtype

(array(['张三', '李四', '王五', '赵六'], dtype='<U2'), dtype('<U2'))

__再次强调__

不能直接修改多维数组的dtype属性，会导致不可预料的结果。


In [36]:

bad_names = names.copy()
bad_names.dtype = np.dtype('U10')
bad_names

array(['\U6b63614a\x00\U6f4a0000湨\x00\U6574614b\x00\U6c4b0000\U006e6965'],
      dtype='<U10')

In [37]:
# 改变数据类型不能直接修改dtype属性，只能通过astype函数得到一个新的ndarray
names.astype(np.dtype('U10'))  # 正确做法

array(['Jack', 'John', 'Kate', 'Klein'], dtype='<U10')

In [38]:
# 另一个例子
bad_arr = arr6.copy()
bad_arr.dtype = np.dtype(np.int32)  # 危险！！！
bad_arr

array([[1065353216, 1073741824, 1077936128, 1082130432, 1084227584],
       [1082130432, 1084227584, 1086324736, 1088421888, 1090519040]])

## 7.4 向量化运算

可以像对待一个数一样对多维数组进行常规的算术运算，运算会应用到每个数组元素。

In [39]:
arr1 = np.array([1,2,3,4,5])
arr2 = np.array(range(5))
print(arr1, arr2)
arr1 + arr2  # 注意与列表的加法进行区分

[1 2 3 4 5] [0 1 2 3 4]


array([1, 3, 5, 7, 9])

In [40]:
arr3 = np.arange(5,10)
print(arr1)
print(arr3)
arr1 * arr3

[1 2 3 4 5]
[5 6 7 8 9]


array([ 5, 12, 21, 32, 45])

In [41]:
print(arr1)
print(arr3)
arr1 / arr3

[1 2 3 4 5]
[5 6 7 8 9]


array([0.2       , 0.33333333, 0.42857143, 0.5       , 0.55555556])

numpy这种数组运算方式又称为向量化（矢量化）运算，通过这种方式可以避免使用循环对大批数据进行处理。这种编程方式也称为向量/矢量化编程方式。

向量化编程的优点：

* 程序代码简洁、可读性高；
* 代码执行效率高（优化的矢量操作）。

如果其中一个操作变量为数值标量（scalar），则数组运算同样会应用到每个元素。这种特性称为广播。进一步推广，若两个数组的大小不同，也可以通过广播方式完成运算。

In [42]:
print(arr1)
arr1 + 100

[1 2 3 4 5]


array([101, 102, 103, 104, 105])

In [43]:
print(arr1)
arr1 * 2  # 注意和列表的操作区分开

[1 2 3 4 5]


array([ 2,  4,  6,  8, 10])

In [15]:
arr8 = np.arange(20)
arr9 = arr8.reshape(5, 4)
print(arr8)
print(arr9)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]


In [16]:
arr10 = np.array([1,2,1,2])
arr9 / arr10  # arr10被广播

array([[ 0. ,  0.5,  2. ,  1.5],
       [ 4. ,  2.5,  6. ,  3.5],
       [ 8. ,  4.5, 10. ,  5.5],
       [12. ,  6.5, 14. ,  7.5],
       [16. ,  8.5, 18. ,  9.5]])

注意被广播的数组必须在大小上与大数组的**低维度**大小一致。

一定要注意，是低维度保存一致，高纬度没用

In [17]:
a10 = np.array([1,2])
arr9 / a10  # 能否成功？

ValueError: operands could not be broadcast together with shapes (5,4) (2,) 

更一般的规则，两个数组A和B的形状如果是广播兼容的，假设用N表示数组A的形状，M表示数组B的形状，则在每个维度（axis = i）上，必须符合下面情况之一：

* $N_i = M_i$
* $ N_i = 1 $
* $ M_i =1 $

### 多维数组的比较运算

多维数组之间支持元素级比较运算，如果两个数组大小不一致，小数组需要经过广播之后再与大数组进行比较。注意与python列表的比较操作进行区分。

* 数组比较结果为bool值构成的多维数组。

* 两个数组尺寸不兼容时不能进行比较。


In [47]:
a1 = np.arange(1,10)
a2 = 3
a1 > a2

array([False, False, False,  True,  True,  True,  True,  True,  True])

判断两个多维数组相等或不相等，不能简单的使用比较操作，因为比较操作返回的仍然是一个多维数组。

可以使用np.all()与np.any()判断该结果数组是否全为True或者至少有一个为True.


In [48]:
a2 = np.arange(2,11) - 1
if np.all(a1 == a2):  print(True)

True


In [49]:
# 如果我们看按行或按列比较的结果，该怎么做？
# 提示：np.any还有一个参数axis


* 浮点数多维数组的比较

回顾一下，浮点数能否精确比较是否相等？

np.allclose用于浮点数比较

In [50]:
test1 = np.array([1/2, 1/3, 1/2-1/3])
test2 = np.array([0.5, 2/6, 1/6])
print(np.allclose(test1,test2))
test1 == test2

True


array([ True,  True, False])

是不是所有的运算都可以使用这种方式实现广播呢？我们来试试看。


In [51]:
import math
#math.sin(arr1)
#math.sqrt(arr1)

如果我们需要将函数运算应用到所有元素，则我们需要特定的函数，称为ufuncs(universal functions,有人称之为通用函数)。

Numpy库中包含了大多数常用数学函数的ufunc版本，如np.log, np.exp等等，并且Numpy对这些函数进行了优化使得它们具有更高的效率。

In [52]:
np.sqrt(arr1)

array([1.        , 1.41421356, 1.73205081, 2.        , 2.23606798])

### 练习4. 数组的矢量化运算

1. 把数组的元素同乘以8；
2. 计算两个数组的元素之差；
3. 计算数组中的元素是否大于0；
4. 将数组中的每个元素转换为其自然对数；
5. 求数组中的每个元素的正弦函数值；

In [5]:
import numpy as np

arr1 = np.arange(1, 5)
arr2 = np.arange(4, 0, -1)

arr1 * 8, arr1 - arr2, arr1 > 0, np.log(arr1), np.sin(arr1) # 注意bp.log的参数不能取0


(array([ 8, 16, 24, 32]),
 array([-3, -1,  1,  3]),
 array([ True,  True,  True,  True]),
 array([0.        , 0.69314718, 1.09861229, 1.38629436]),
 array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ]))

In [7]:
a1 = np.array([1, 2, 3, 4, 5])

np.power(a1, 2) - np.power(np.e, a1)

array([  -1.71828183,   -3.3890561 ,  -11.08553692,  -38.59815003,
       -123.4131591 ])

### 布尔运算

多维数组的布尔运算也是逐个元素进行的，得到一个布尔数组。

In [9]:
b1 = np.array([True, False, True, False, True])
b2 = np.array([True, False, False, True, False])
b1 & b2  # 布尔逻辑与操作

array([ True, False, False, False, False])

In [10]:
b1 | b2  # 布尔逻辑或操作

array([ True, False,  True,  True,  True])

In [11]:
~b1  # 逻辑非操作

array([False,  True, False,  True, False])

In [12]:
# 注意不能直接使用 == 操作符比较两个多维数组是否相等
b1 == b2

array([ True,  True, False, False, False])

In [14]:
# 测试两个数组是否相等
(b1 == b2).all(), np.all(b1 == b2), all(b1 == b2)

(False, False, False)

### 多维数组的集合运算

多维数组也支持集合操作。但是，我们需要注意数组的集合操作返回的结果是经过排序的**数组**，而不是集合。

In [16]:
a1 = np.array([1,2,3,4,5])
a2 = np.array([2,5])
np.in1d(a1, a2)

array([False,  True, False, False,  True])

In [17]:
np.in1d(a2, a1)  # 与上面的结果对比

array([ True,  True])

In [18]:
a3 = np.array([1, 2, 3, 2, 1])
np.unique(a3)  # 注意得到的结果为一个多维数组

array([1, 2, 3])

In [19]:
np.intersect1d(a2, a3)

array([2])

In [20]:
np.union1d(a2, a3)

array([1, 2, 3, 5])

In [21]:
np.setdiff1d(a2, a3)

array([5])

注意：不能将数组的集合操作与scalar构成的集合操作弄混淆。

In [64]:
set(a2) - set(a3)  # 得到一个集合

{5}

In [23]:
# 从1到100的数字x进行下面运算之后，哪些数字仍然在[1, 100]去区间上
# 计算之后仍是整数，
x = np.arange(0, 101)

np.intersect1d(x**2 - 5 * x + 1, x)


array([ 1,  7, 15, 25, 37, 51, 67, 85])

In [25]:
# 高级索引Fancy Indexing, Fancy Indexing 是一种 NumPy 数组索引的方法
# 允许你使用布尔数组（或整数数组）来选择数组的子集，注意两个数组的形状

x = np.arange(1, 101)
y = x ** 2 - 5 * x + 1
x[y < 100]

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

## 7.5 索引与数据选取和访问

创建了数据的容器之后，在对大批数据进行处理之前需要首先选择操作的数据范围，这就需要用到数据子集或区域的选择。从根本上说，由于numpy对数据的组织仅仅是采用维度和顺序来排列，因此数据子集的选取主要是通过下标（索引）来实现。

### 一维数组元素的索引和切片

可以使用单一下标、下标区间来访问数组元素。

In [26]:
arr0 = np.arange(6)
arr0[3], arr0[0], arr0[-1]

(3, 0, 5)

注意：ndarray数组下标索引从零开始。负数下标代表从尾部开始。

可以使用切片语法返回一个区间内的数据，数组的切片操作也是下界包含，上界不包含。

In [27]:
arr0[1:5], arr0[ :3], arr0[2: ]

(array([1, 2, 3, 4]), array([0, 1, 2]), array([2, 3, 4, 5]))

下标索引的两侧区间的缺省值分别为0和数组长度。如果两侧区间都缺省，则得到数组整个视图。

In [28]:
arr0[:], arr0[::2]

(array([0, 1, 2, 3, 4, 5]), array([0, 2, 4]))

下标索引不一定是连续且递增的

可以是多个不连续的下标值，当然也可以是递减的。

相对列表更加灵活

In [29]:
arr0[[1,3]]  # 注意下标列表的写法，不能使用arr0[1,3]。

array([1, 3])

In [30]:
arr0[4:1:-2], arr0[::-1]

(array([4, 2]), array([5, 4, 3, 2, 1, 0]))

### 高维数组的索引和切片

对于高维数组来说，需要注意它有几个维度，就需要在几个维度上确定下标索引范围。

In [32]:
arr2d=np.arange(24)
arr2d.shape=(3,8)
arr2d

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]])

访问单个元素，有两种等价的方式。

In [33]:
arr2d[2,3], arr2d[2][3] # 这两种都是可以的哈，但是注意列表只能第二种

# 如果是使用多个"[]"则是逐层约减

(19, 19)

访问最高维度上(最外层)的数据。

In [72]:
arr2d[1]

array([ 8,  9, 10, 11, 12, 13, 14, 15])

如果只有一个索引，则从最高维度取一个元素，也就是说比原数组低一个维度。

访问第二个维度，跨所有的第一维度。这时候需要两个下标。

In [73]:
arr2d[:,1]

array([ 1,  9, 17])

高维数组也可以进行更为细致的切片。在最高维度上进行切片，低维度的元素可以看成一个整体。

In [34]:
arr2d[:2]

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

在第二个维度上进行切片，第一个维度固定下标为1.

In [35]:
arr2d[1,:2]

array([8, 9])


现在，让我们来试试更为复杂的切片。

想一想，它们对应什么区域？


In [76]:
arr2d[:2,:3]

array([[ 0,  1,  2],
       [ 8,  9, 10]])

In [77]:
arr2d[::2,::2]

array([[ 0,  2,  4,  6],
       [16, 18, 20, 22]])

In [78]:
arr2d[::2,::-1]

array([[ 7,  6,  5,  4,  3,  2,  1,  0],
       [23, 22, 21, 20, 19, 18, 17, 16]])

对于某个数组，取出其中间的元素，所有的边界行或列除外。怎么做？

是可以使用1:-1的哈

In [79]:
x1 = np.arange(25).reshape((5,5))
print(x1)
x1[1:-1, 1:-1]

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


array([[ 6,  7,  8],
       [11, 12, 13],
       [16, 17, 18]])

### 数组元素的修改

对数组元素的修改很简单，只需要选取该元素或子集，然后赋值即可。

In [36]:
arr2d[1,2]=99
arr2d

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 99, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]])

In [38]:
arr2d[:,1]=888
arr2d

# 这个时候是可以进行广播的哈

array([[  0, 888,   2,   3,   4,   5,   6,   7],
       [  8, 888,  99,  11,  12,  13,  14,  15],
       [ 16, 888,  18,  19,  20,  21,  22,  23]])

可以发现，数组元素的赋值也是采用广播方式。在编程中需要特别小心。

小练习：在一个4行6列的矩阵中间，打一个洞，将其中所有的数清零。

In [40]:
arr12=np.ones((4,6))
print(arr12)

arr12[1: -1, 1: -1] = 0
print(arr12)


[[1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1.]]
[[1. 1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1. 1.]]


### 练习5. 数组的索引和切片
1. 取得数组某个位置的一个元素；
2. 取得数组的最内层的某列元素；
3. 取得数组的最外层的某列元素；
4. 取得数组的某个范围的元素；
5. 在数组中间隔取数；

In [46]:
arr1 = np.arange(20)
arr1.resize((4, 5))
# arr1.reshape((4, 5))
arr2 = np.ones((6, 7))
arr2[1: -1, 1: -1] = arr1
arr2

array([[ 1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  0.,  1.,  2.,  3.,  4.,  1.],
       [ 1.,  5.,  6.,  7.,  8.,  9.,  1.],
       [ 1., 10., 11., 12., 13., 14.,  1.],
       [ 1., 15., 16., 17., 18., 19.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.]])

In [66]:
arr1 = np.arange(1, 25)
arr1.resize((4, 6))

print(np.sum(arr1[2, :]) + np.sum(arr1[:, 2]) - arr1[2, 2])
print(np.sum(arr1[0, :]) + np.sum(arr1[-1, :]) + np.sum(arr1[:, 0]) + np.sum(arr1[:, -1]) - sum([arr1[0, 0], arr1[-1, -1], arr1[0, -1], arr1[-1, 0]]))
# 将中间置空是一个更好的方式哈
print(arr1[0, 0] + arr1[0, -1]+ arr1[-1, 0] + arr1[-1, -1])
# 使用：
print(np.sum(arr1[::3, ::5]))

print(arr1[[0, 0, -1, -1], [0, -1, 0, -1]]) # Fancy Indexing

print(arr1[[0, -1], :][:, [0, -1]])

126
200
50
50
[ 1  6 19 24]
[[ 1  6]
 [19 24]]


### 布尔型下标索引

有时候我们希望对数组中满足一定条件的数据进行统一处理，这时候就会用到布尔型下标索引。


In [56]:
arr11=np.random.rand(4,5)
arr11

array([[0.43933117, 0.51567337, 0.25782031, 0.81324979, 0.21431135],
       [0.13640793, 0.55509863, 0.13664553, 0.67843216, 0.06509884],
       [0.4523617 , 0.13201169, 0.96330607, 0.63204612, 0.70506267],
       [0.86928347, 0.96278207, 0.34763381, 0.9046948 , 0.80666033]])

In [57]:
cond = arr11<=0.5
cond

array([[ True, False,  True, False,  True],
       [ True, False,  True, False,  True],
       [ True,  True, False, False, False],
       [False, False,  True, False, False]])

In [58]:
arr11[cond]

array([0.43933117, 0.25782031, 0.21431135, 0.13640793, 0.13664553,
       0.06509884, 0.4523617 , 0.13201169, 0.34763381])

In [59]:
arr11[cond]=0
arr11

array([[0.        , 0.51567337, 0.        , 0.81324979, 0.        ],
       [0.        , 0.55509863, 0.        , 0.67843216, 0.        ],
       [0.        , 0.        , 0.96330607, 0.63204612, 0.70506267],
       [0.86928347, 0.96278207, 0.        , 0.9046948 , 0.80666033]])

如果有多个条件，可以使用复合条件表达式，但是需要注意的是需要使用 &和|来处理布尔数组.

In [87]:
arr11[(arr11 < 0.8) & (arr11> 0.5)] = 1
arr11

array([[0.        , 1.        , 0.        , 0.        , 1.        ],
       [1.        , 0.        , 0.97307453, 0.        , 0.89966946],
       [1.        , 0.        , 0.        , 1.        , 0.        ],
       [0.        , 0.90245367, 0.9602679 , 0.        , 0.        ]])

小练习：有8行4列数据代表8轮出牌情况，4列数据分别对应黑桃、红桃、方块和草花，取出点数小于6点的所有出牌，将其改为零。

In [88]:
import numpy as np
arr13=np.random.randint(1,13,(8,4))
arr13

array([[ 7,  4,  4, 10],
       [ 6,  3,  1, 10],
       [ 4,  8,  9,  5],
       [ 6,  5,  3,  2],
       [ 8,  3,  7,  2],
       [ 5,  9,  6,  1],
       [ 6, 12, 10,  2],
       [ 9, 11, 11,  2]])

In [89]:
cond1=arr13<6
arr13[arr13<6]=0
arr13

array([[ 7,  0,  0, 10],
       [ 6,  0,  0, 10],
       [ 0,  8,  9,  0],
       [ 6,  0,  0,  0],
       [ 8,  0,  7,  0],
       [ 0,  9,  6,  0],
       [ 6, 12, 10,  0],
       [ 9, 11, 11,  0]])

## 练习6. 布尔索引
1. 生成一个4行5列的随机数数组，将其中小于0.5的元素清零；
2. 生成一个5行4列的随机数数组，将其中大于0.6的元素设置为1，小于等于0.6的设置为-1.

In [9]:
import numpy as np

x = np.random.random((4, 5))
x[x < 0.5] = 0
print(x)

y = np.random.random(())
y

[[0.         0.77600531 0.55095838 0.         0.52926578]
 [0.9568769  0.         0.         0.86294567 0.        ]
 [0.82509486 0.83613181 0.         0.         0.        ]
 [0.         0.66569338 0.         0.         0.9010131 ]]


array(0.79487876)

In [7]:
np.random.seed(100)

x = np.random.randint(-12, 13, (3, 8))

x, np.sum(x[x < 0]), np.sum(x[x > 0])

(array([[ -4,  12,  -9,  -5,  11,   3,   4,  -2],
        [  8, -10,   9, -10, -10,   2, -10,   5],
        [  4,  12,   3,  -8,  -1,   4,  -3,  10]]),
 -72,
 87)

## 7.6 Numpy库支持的数学运算

* Numpy库函数
* linalg子库
* random子库


### Numpy库中的数学运算函数

Numpy中提供了一些通用函数，可以对多维数组中的数据执行元素级运算。常用的数学运算函数基本都包含在内。

In [90]:
arr1 = np.linspace(2,10,5)  # 最后一个参数是什么意思？还记得吗？
print(arr1)
arr1

[ 2.  4.  6.  8. 10.]


array([ 2.,  4.,  6.,  8., 10.])

In [91]:
np.sqrt(arr1)

array([1.41421356, 2.        , 2.44948974, 2.82842712, 3.16227766])

In [92]:
np.square(arr1)

array([  4.,  16.,  36.,  64., 100.])

In [93]:
np.exp(arr1)

array([7.38905610e+00, 5.45981500e+01, 4.03428793e+02, 2.98095799e+03,
       2.20264658e+04])

In [94]:
np.log(arr1)

array([0.69314718, 1.38629436, 1.79175947, 2.07944154, 2.30258509])

其他的函数还有：
* sign
* ceil
* floor
* rint
* isnan
* isinf
和大量的三角函数等等。

几个常用的numpy函数：

* np.maximum(x1, x2) : 逐个比较数组x1和x2的元素，返回较大的那个，组成新的数组。

* np.minimum(x1, x2) : 返回两个数组中逐个比较最小的元素

* np.where(cond, x1, x2) : 逐个根据条件返回x1或x2数组中对应元素

In [95]:
a = np.arange(10).reshape((2,5))
np.where(a < 5, a, 0)

array([[0, 1, 2, 3, 4],
       [0, 0, 0, 0, 0]])

### Numpy库中的统计函数

多维数组上还提供了一些统计函数可以对数组进行统计计算，由于统计方法大多数为聚合类方法，因此需要指定维度或轴，不指定则对所有数据进行聚合。

注意分析参数axis的含义。

In [18]:
import numpy.random as npr
npr.seed(100)
arr14=npr.randint(1,10,(6,4))
arr14

array([[9, 9, 4, 8],
       [8, 1, 5, 3],
       [6, 3, 3, 3],
       [2, 1, 9, 5],
       [1, 7, 3, 5],
       [2, 6, 4, 5]])

In [2]:
arr14.sum()  # 未指定axis,求所有元素的和

112

In [3]:
arr14.sum(axis=0)  # 对第一维求和

array([28, 27, 28, 29])

In [4]:
arr14.sum(axis=1)  # 对第二维求和

array([30, 17, 15, 17, 16, 17])

In [5]:
arr14.mean(axis=1)

array([7.5 , 4.25, 3.75, 4.25, 4.  , 4.25])

sum和mean等这类统计方法除了可以作为对象的方法进行调用，也可以作为numpy的函数调用。

In [7]:
import numpy as np

np.sum(arr14,axis=0)

array([28, 27, 28, 29])

In [102]:
np.mean(arr14,axis=1)

array([7.5 , 4.25, 3.75, 4.25, 4.  , 4.25])

### 思考与尝试

若我们对一个6层7行8列的数组进行求和， 设置axis = 1，则结果是一个什么样的数组？

In [19]:
my_array = np.arange(6 * 7 * 8).reshape((6, 7, 8))
# 对哪里进行求和就是对该维度进行压缩
my_array.sum(axis = 1).shape

(6, 8)

数组统计方法汇总：
* sum  求和
* mean  均值
* std  标准差
* var  方差

* min  最小值
* max 最大值
* argmin  最小值的下标索引
* argmax  最大值的下标索引

### 练习7. 找出一个数组中的最大元素
1. 找到数组中的最大元素；
2. 找到数组每行的最大元素；
3. 找到数组每列的最大元素。
4. 定位第四行中最大元素的位置

In [18]:
x = np.arange(24).reshape((2, 3, 4))
np.max(x), np.max(x, axis=0), np.max(x, axis=1), np.max(x, axis=2), np.argmax(x[:, 2, :], axis=1)

(23,
 array([[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]),
 array([[ 8,  9, 10, 11],
        [20, 21, 22, 23]]),
 array([[ 3,  7, 11],
        [15, 19, 23]]),
 array([3, 3]))

### linalg子库与线性代数运算

linalg（linear algebra）顾名思义支持线性代数相关运算。除了少数的函数外，大多数线性代数的函数均在linalg库中。

矩阵运算

* dot 向量乘法
* eig 特征值和特征向量
* inv 逆矩阵
* trace 对角线元素和
* det 矩阵行列式

In [19]:
a = np.array([[1, 0], [3, 4]])
b = np.ones((2,2))
a.dot(b), np.dot(a, b)

(array([[1., 1.],
        [7., 7.]]),
 array([[1., 1.],
        [7., 7.]]))

In [20]:
np.trace(a)

5

In [21]:
from numpy.linalg import inv,eig,det
eig(a) # 特征值和特征向量

(array([4., 1.]),
 array([[ 0.        ,  0.70710678],
        [ 1.        , -0.70710678]]))

In [107]:
inv(a), det(a)  # 求逆，求行列式值

(array([[ 1.  ,  0.  ],
        [-0.75,  0.25]]),
 4.0)

In [22]:
from numpy.linalg import qr, svd, solve
qr(a)  # qr分解

(array([[-0.31622777, -0.9486833 ],
        [-0.9486833 ,  0.31622777]]),
 array([[-3.16227766, -3.79473319],
        [ 0.        ,  1.26491106]]))

In [23]:
svd(a)  # svd分解

(array([[-0.12218326, -0.99250756],
        [-0.99250756,  0.12218326]]),
 array([5.03679629, 0.7941556 ]),
 array([[-0.61541221, -0.78820544],
        [-0.78820544,  0.61541221]]))

In [24]:
b = np.array([5., 7.])
x = solve(a, b)  # 解方程
x

array([ 5., -2.])

In [25]:
np.allclose(np.dot(a,x), b)  # check if the solution is right

True

In [38]:
npr.seed(200)
x = npr.random((4,6))
miu = np.mean(x, axis=1)
s = np.std(x, axis=1)
miu.shape, s.shape, (x - miu.reshape(-1, 1)) / s.reshape(-1, 1)

((4,),
 (4,),
 array([[ 1.42754931, -0.84157954,  0.31605208, -0.20667185,  0.85013318,
         -1.54548318],
        [-1.58071179,  0.58922469, -1.193076  ,  0.87254454,  0.42287428,
          0.88914427],
        [ 1.20125228, -0.73254257,  0.96041264, -1.30206695,  0.77149685,
         -0.89855226],
        [-1.88998278,  1.05827527,  0.64970672, -0.42084685,  0.81478286,
         -0.21193521]]))

In [112]:
# 与上面的做法进行比较
np.dot(a,x) == b  # why?

array([False, False])

In [113]:
npr.seed(200)
x = npr.random((4,6))
#标准化

### random 子库

random子库主要是随机数生成和随机样本生成库。


In [39]:
import numpy.random as npr  # 我们常用npr作为这个子库的简称

In [43]:
npr.seed(3)  # 指定一个随机种子
npr.rand(3,2), npr.rand()  # 生成(0,1)上的均匀分布随机数

(array([[0.5507979 , 0.70814782],
        [0.29090474, 0.51082761],
        [0.89294695, 0.89629309]]),
 0.12558531046383625)

In [116]:
npr.seed(5)  # 随机种子相同时，生成的随机序列将同步
npr.randn(3,4)  # 生成标准正态分布随机数

array([[ 0.44122749, -0.33087015,  2.43077119, -0.25209213],
       [ 0.10960984,  1.58248112, -0.9092324 , -0.59163666],
       [ 0.18760323, -0.32986996, -1.19276461, -0.20487651]])

一些最常用的随机数
* rand(d0,d1,...,dn) 产生均匀分布随机数
* randn(d0,d1,...,,dn) 产生标准正态分布随机数
* randint(low[,high,size]) 产生随机整数，在区间[low,high)
* random([size]) 与rand作用相同，只是参数传递方式不同

常用的一些分布
* beta(a,b[,size])
* binomial(n,p[,size])
* exponential([scale,size])
* gamma(shape[,scale,size])
* logistic([loc,scale,size])
* normal([loc,scale,size])

与rand和randn不同，大多数的随机数生成函数都有至少一个参数，数组的形状需要使用元组来传递。

In [54]:
#npr.beta(2, 3, 3, 4) # wrong
npr.seed(200)
npr.beta(2, 3, (3, 4))

array([[0.0538438 , 0.54782332, 0.28385127, 0.18093581],
       [0.24574092, 0.74589456, 0.20289599, 0.10009672],
       [0.10383409, 0.20287057, 0.61448609, 0.18766016]])

In [60]:
npr.seed(200)
npr.normal(0, 1, (2, 5))

array([[-1.45094825,  1.91095313,  0.71187915, -0.24773829,  0.36146623],
       [-0.03294967, -0.22134672,  0.47725678, -0.69193937,  0.79200593]])