# Lesson 27.NumPy基础

### 1.NumPy简介
&emsp;&emsp;我们都知道，Python本身是一门通用的编程语言，可用于诸多不同的场景，如Web开发、操作系统开发、数据分析、算法工程等等，而不同领域的应用，就要求额外定义一些更专业、同时也更高效的数据类型与函数。在上一节中，我们简单尝试了自己定义一类表示二维或多维的数组数据类型，并定义的数组之间的距离计算方法。N维数组是数据科学领域最基本的数据结构了，无论你是要进行数学计算，还是进行实际的表格数据处理，N维数组都是非常基础的一类对象。而在Python原生数据类型中，列表是最接近数组功能要求的对象，但列表受限于其数据结构，计算并不高效，且没有相关科学计算函数支持，因此在进行数据科学计算过程中，我们往往会适用第三方库NumPy，调用其中数组（Array）对象，来满足数据科学运算需求。          
&emsp;&emsp;也正因如此，NumPy可以说是Python数据技术中最通用的第三方库，其核心优势在它提供了可供各类复杂数据运算的N维数组数据对象，以及各类相关的函数方法，在上一节中我们也初步看到了NumPy的强大之处，而本节开始，我们将详细介绍NumPy库中常用的对象和基本方法。      
&emsp;&emsp;当然，既然谈到数据科学运算，就不得不提另外一个包Pandas。和NumPy提供相对基础的数组对象类型不同，Pandas则提供了对数据处理工作更常见的二维表结构数据类型DataFrame。不过归根结底，Pandas其实是基于NumPy的拓展库，我们可以理解为在数据计算过程，NumPy提供了相对底层的数组结构对象，而Pandas则提供了更高层的、同时使用场景也更专一的二维表结构对象。关于Pandas相关内容，我们将在后续继续介绍。

#### Numpy的安装
**方法一：**    
 &emsp;标准的 Python 发行版不会与 NumPy 模块捆绑在一起。一个轻量级的替代方法是使用流行的Python 包安装程序 pip 来安装 NumPy。    
 在 CMD 或命令行中执行: `pip install numpy `   
 
 **方法二：** （推荐）      
 &emsp;但是实际在 Windows 系统中的安装，多数时候会出现各类需要编译或缺乏相关依赖的问题，由于在 Python 的编程基础部分已经提过，建议大家使用 Anaconda 的 Python 发行版，这个发行版已经提前为我们安装了各类的科学计算需要的第三方包。我们直接使用就可以了。    

尝试导入Numpy，Numpy 约定俗成的导入方式如下：

In [1]:
import numpy as np

In [2]:
#查看numpy版本  
np.__version__

'1.19.4'

#### 2.Ndarray的简单创建和索引

&emsp;&emsp;Numpy的核心是对象类型是ndarray（n-dimension-array），也就是我们常说的多维数组。实际创建过程中，我们适用np.array函数进行数组的创建，并且根据该函数规则，我们必须输入一个序列（如list、tuple等），才能将其转化为一个array。当然，我们也只能适用函数进行数组的创建。

In [33]:
# 数组的创建
arr1 = np.array([1, 3, 2])
arr1

array([1, 3, 2])

In [34]:
# 将tuple转为array
arr2 = np.array((1.1, 3.2, 2))
arr2

array([1.1, 3.2, 2. ])

In [86]:
# 利用range生成array
np.array(range(5))

array([0, 1, 2, 3, 4])

In [124]:
# 等价于
np.arange(5)

array([0, 1, 2, 3, 4])

这里我们发现，数组的第三个元素变成了浮点型。数组也是有序可变序列，可以对其进行索引。其基本索引规则和list相同

In [35]:
arr2[2]          # 对其第三个元素进行索引。

2.0

我们发现，输出结果返回的是浮点型。这其实是因为数组和列表不同，数组要求所有其内所有元素都是同一类型。当输入是不同类型时，数组就会对其进行转化。

In [28]:
# 同时输入数值型和字符串型对象
arr3 = np.array([1, 'h'])
arr3

array(['1', 'h'], dtype='<U11')

In [29]:
type(arr3[0])

numpy.str_

我们发现，返回结果不是str，而是numpy.str_，很明显，这是一种numpy独有的数据类型。

In [32]:
# 查看arr3数据类型
type(arr3)

numpy.ndarray

但是，能够看出，arr2和arr3不是类型，通过type无法查看，此时需要适用numpy中的dtype方法来进行检验。

In [37]:
arr1.dtype

dtype('int32')

In [38]:
arr2.dtype

dtype('float64')

In [39]:
arr3.dtype

dtype('<U11')

&emsp;&emsp;由此，我们能够发现，array和list不同，list无论存储何种对象类型，返回结果都是list，并且不会改变存入的对象类型。但当我们创建array时，若存在不同类型的元素，array会将其转化为同一类型。因此，array本身也是分为很多类型的，type无法查看，但可以适用dtype方法进行判别。

&emsp;&emsp;而numpy中，之所以要强制要求所有元素属于同一类，其实也是为了能够更加便捷的调用numpy中诸多array的方法。

### 2.Array的类型及转化方法

&emsp;&emsp;实际上，array的类型非常多，包括	

|	数据类型|	描述|	
|--|--|
|	bool_	|布尔（True或False），存储为一个字节|	
|	int_	|默认整数类型（通常为int64或int32）|	
|	intc	|与C int（通常为int32或int64）相同|	
|	intp	|用于索引的整数（与C ssize_t相同；通常为int32或int64）|	
|	int8	|字节（-128到127）|	
|	int16	|整数（-32768到32767）|	
|	int32	|整数（-2147483648至2147483647）|	
|	int64|	整数（-9223372036854775808至9223372036854775807）|	
|	uint8|	无符号整数（0到255）|	
|	uint16|	无符号整数（0到65535）|	
|	uint32	|无符号整数（0至4294967295）|	
|	uint64	|无符号整数（0至18446744073709551615）|	
|	float_	|float64的简写。|	
|	float16	|半精度浮点：符号位，5位指数，10位尾数|	
|	float32	|单精度浮点：符号位，8位指数，23位尾数|	
|	float64	|双精度浮点：符号位，11位指数，52位尾数|	
|	complex_|	complex128的简写。|	
|	complex64|	复数，由两个32位浮点（实数和虚数分量）|	
|	complex128|	复数，由两个64位浮点（实数和虚数分量）|

当然，在实际使用过程中，我们用到的还是数值类型较多。这里不要求记住全部类型，但需要知道的是NumPy中自动执行的转化规则，以及如何手动设置array类型。

#### 2.1 Array类型转化规则

&emsp;&emsp;当array进行不同元素类型转化的时候，一般遵循“尽可能保留更多有效信息”的原则进行转化。常见的转化过程如下：

In [40]:
# 整型转浮点型
np.array([1, 1.1])

array([1. , 1.1])

In [42]:
# 数值型转字符串
np.array([1, 1.1, '1'])

array(['1', '1.1', '1'], dtype='<U32')

注：虽然array能够在创建的过程中自动转化对象类型，但使用需慎重，避免经常出现输入对象和输出对象不一致的情况。

#### 2.2强制输出某一类型对象

当然，我们可以使用dtype参数，强制Array输出某一类型对象。

In [54]:
a = np.array([1, 1.1], dtype = 'int')        # dtype参数
a

array([1, 1])

In [55]:
b = np.array([1, 2, 0], dtype = 'bool')      # 0输出False、其他输出1
b

array([ True,  True, False])

In [57]:
c = np.array([1, '2'], dtype = 'uint8')
c

array([1, 2], dtype=uint8)

In [53]:
# 当然，并非所有的转化都能执行
np.array(['g', 'q'], dtype = 'int') 

ValueError: invalid literal for int() with base 10: 'g'

#### 2.3 Array类型转化

当然，我们也可以针对已经创建好的Array进行类型转化。此时使用astype方法。

In [62]:
a.astype(np.float64)           # 但不改变原对象

array([1., 1.])

In [63]:
a

array([1, 1])

In [64]:
b.astype(np.int)              # 相比原始的b，损失了部分信息

array([1, 1, 0])

In [65]:
c.astype(np.int)

array([1, 2])

由于array和list是比较相似的对象，因此我们也经常将array转化为list

In [66]:
a.tolist()

[1, 1]

### 3.多维数组的创建和索引

&emsp;&emsp;从严格意义上来说，刚才我们所创建的数组都是一维数组，而利用类似列表的嵌套，我们就能够创建多维数组。

#### 3.1 二维数组的创建

&emsp;&emsp;数组和Python其他基本对象类型类似，都可以进行嵌套。

In [67]:
# 以list作为数组对象的元素
arr2 = np.array([[5,6,7,8,9],[4,3,2,1,0]])

In [68]:
arr2

array([[5, 6, 7, 8, 9],
       [4, 3, 2, 1, 0]])

In [69]:
arr2[0]

array([5, 6, 7, 8, 9])

In [70]:
type(arr2[0])

numpy.ndarray

注意，在创建arr2的过程中，我们输入的仍然是一个list，只不过是一个嵌套了一个list的list，也就是它是一个由list元素组成的list。而最终输出结果，其实并不是一个简单的每个元素都是list的、包含了两个元素的数组，而是一个二维数组。其中，二维数组的二维体现在，每个元素都是一个独立的array，而非list，并在返回结果的外形也发生了变化。

In [71]:
# 二维数组的创建不受输入序列类型的影响
np.array([(5,6,7,8,9),[4,3,2,1,0]])

array([[5, 6, 7, 8, 9],
       [4, 3, 2, 1, 0]])

In [73]:
# 但会受到输入序列元素不一致的影响
np.array([(5,6,7,8,9),[4,3,2,1]])

  


array([(5, 6, 7, 8, 9), list([4, 3, 2, 1])], dtype=object)

这也就是所谓的维度的体现之一：要求每个维度元素个数必须相同。当然，在Numpy中，二维数组就相当于是矩阵。当然，二维数组其实是非常常用的类型，通常可用来表示二维表结构数据。

- ndim查看维度

In [91]:
arr2.ndim           # 二维

2

In [93]:
arr1.ndim           # 一维

1

#### 3.2 二维数组的索引

&emsp;&emsp;二维数组既可以使用一般序列的索引形式，同时也有自己特殊的索引方法。

In [76]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

- 一般索引方法

In [77]:
a[1]

array([3, 4])

In [79]:
a[1][1]

4

In [80]:
a[:]

array([[1, 2],
       [3, 4]])

In [82]:
a[:1]

array([[1, 2]])

- 特殊索引方法

In [83]:
a[1, 1]                # 类似矩阵的行列标索引

4

In [84]:
a[1, :]

array([3, 4])

对于二维array，可以用逗号来区分是对行还是对列进行索引，并且行、列的索引都遵循python一般索引规则。

### 3.3 三维数组的创建

&emsp;&emsp;接下来，尝试创建三维数组。如果说，二维数组可以通过列表的嵌套来创建，那三维数组就可以使用列表的嵌套的嵌套来创建。或者说，两个一层嵌套的list来创建。

In [97]:
l1 = [[1, 2], [3, 4]]
l1

[[1, 2], [3, 4]]

In [98]:
l2 = [[5, 6], [7, 8]]
l2

[[5, 6], [7, 8]]

In [99]:
a3 = np.array([l1, l2])

In [100]:
a3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

当然，从矩阵理解角度，我们也可以将其理解为两个矩阵共同构成了三维数组。

In [101]:
a3.ndim

3

三维数组的索引和二维数组类似，只是需要增加一个维度，即增加一个“逗号”。

In [103]:
a3[1, 1, 1]        # 第二个矩阵的第二行第二列

8

In [104]:
a3[0, 1, 1]

4

In [106]:
a3[0, 1, :]       # 第一个矩阵

array([3, 4])

当然，伴随着数组维度的逐渐提高，理解起来也越来越抽象。不过大多数情况下，最多只会使用到三维数组，一般不会使用更高维度数组。但高维数组的创建和索引，仍然是必须掌握的内容。

### 4.Array其他常用属性

In [108]:
arr1

array([1, 3, 2])

In [109]:
arr1.ndim

1

In [110]:
arr2

array([[5, 6, 7, 8, 9],
       [4, 3, 2, 1, 0]])

In [111]:
arr2.ndim

2

In [112]:
a3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [113]:
a3.ndim

3

- dtype查看类型

In [114]:
arr1.dtype

dtype('int32')

- shape查看数组的维度信息

In [117]:
arr2.shape           # 两行五列的矩阵

(2, 5)

In [119]:
a3.shape             # 包含两个、2行两列的矩、的数组

(2, 2, 2)

- size查看总共多少元素

In [120]:
arr2.size

10

In [123]:
a3.size

8