# NumPy 

**numpy** (读作 \[ˈnʌmpaɪ\]) 是一个 Python 中的科学计算库，主要用于数组运算，比如向量、矩阵的运算。NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用， 这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。  

* 一个强大的N维数据对象 ndarray 
* 广播功能函数  
* 线性代数、傅里叶变换、随机数生成等函数


# numpy.ndarray 基础  

numpy 中的基本数据类型——array，即数组，包括一维数组及多维数组，用于表示不同维度的数据。

In [1]:
import numpy

In [3]:
numpy.__version__ # 查看当前 numpy 的版本号

'1.21.2'

In [4]:
import numpy as np # 简称 numpy 为 np

In [5]:
np.__version__

'1.21.2'

在讲解 numpy 之前，我们首先了解一下为什么不能用 Python 中的 list 为什么不能拿来作为数学数组的数据类型。

## 1. Python List的特点

In [13]:
L = [i for i in range(10)]
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [14]:
L[5]

5

In [15]:
L[5] = 100
L

[0, 1, 2, 3, 4, 100, 6, 7, 8, 9]

In [16]:
L[5] = "Python"
L

[0, 1, 2, 3, 4, 'Python', 6, 7, 8, 9]

**注意**： python 中的列表可以允许存储多个不同类型的数据，作为list的元素。尽管这样的机制能够让列表比较灵活，可以存储任何类型的数据对象，但是带来的缺点是，它的效率比较低，因为需要对这些元素的类型做检查。

Python 中也有限定只能存储一种类型元素的数组，这个数组叫做 array

In [6]:
import array

创建一个array对象，其中第一个参数是type code，用于指定array中元素的类型。array只允许存储一种类型元素。

In [7]:
# i - integer, 第二个参数是array中存放的元素

arr = array.array('i',[i for i in range(10)])
arr

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
help(array.array)

Help on class array in module array:

class array(builtins.object)
 |  array(typecode [, initializer]) -> array
 |  
 |  Return a new array whose items are restricted by typecode, and
 |  initialized from the optional initializer value, which must be a list,
 |  string or iterable over elements of the appropriate type.
 |  
 |  Arrays represent basic values and behave very much like lists, except
 |  the type of objects stored in them is constrained. The type is specified
 |  at object creation time by using a type code, which is a single character.
 |  The following type codes are defined:
 |  
 |      Type code   C Type             Minimum size in bytes
 |      'b'         signed integer     1
 |      'B'         unsigned integer   1
 |      'u'         Unicode character  2 (see note)
 |      'h'         signed integer     2
 |      'H'         unsigned integer   2
 |      'i'         signed integer     2
 |      'I'         unsigned integer   2
 |      'l'         signed integer    

In [8]:
arr[5]

5

In [22]:
arr[5] = 100
arr

array('i', [0, 1, 2, 3, 4, 100, 6, 7, 8, 9])

In [23]:
arr[5] = 'Python'

TypeError: an integer is required (got type str)

* array限制数组内元素的数据类型，因此这里报错提示我们，需要一个整型数据，而不是字符串类型的数据作为数组元素。虽然降低了灵活性，但是效率较高。


* array的缺点是它仅仅将这些数组看作是存储固定数据类型的结构，并没有把这些数组看作向量或者矩阵，因此也不支持相应的数学运算。  

## 2. numpy.ndarray 的创建  


* ndarray 是一个多维数组对象，由两部分构成：  
1. 实际的数据  
2. 描述这些数据的元数据，比如数据维度、数据类型等。ndarray要求所有元素类型相同，数组下标从0开始。


* **np.array(list)** 向 array 方法中传入一个列表  

注意，这里的 array 就是 ndarray 在代码中的别名。

In [9]:
nparr = np.array([i for i in range(10)])
nparr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
type(nparr)

numpy.ndarray

In [26]:
nparr[5]

5

In [11]:
nparr[5] = 100
nparr

array([  0,   1,   2,   3,   4, 100,   6,   7,   8,   9])

In [30]:
nparr[:]

array([  0,   1,   2,   3,   4, 100,   6,   7,   8,   9])

np.array 的基本操作，比如索引、切片操作和我们使用 list 是完全一样的。不过 np.array 也包含了自己的一些独特的方法，其实就是ndarray的属性：  

ndarray.dtype: 元素类型  
ndarray.shape: 维度 （比如对于矩阵，n行m列 -> (n,m)）  
ndarray.size: 元素的个数 （维度为（n,m）的矩阵 size 为 n*m）  
ndarray.ndim: 维度的数量

In [31]:
nparr.dtype # 检查 np.array 中存储的数据类型（np.array的数据类型是有限制的）

dtype('int32')

默认存储数据类型为 int32

In [32]:
nparr[5] = 5.0

In [33]:
nparr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [34]:
nparr.dtype

dtype('int32')

5.0 是一个浮点数，但是我们定义的 nparr 默认数据类型是int32，因此这里进行了一个隐式的数据类型转换。

In [35]:
nparr[3] = 3.14

In [36]:
nparr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
nparr.dtype

dtype('int32')

隐式的数据类型转换中，浮点数的小数部分被截位，因此在具体的数据操作中要小心。

In [40]:
nparr[4] = 'Python'

ValueError: invalid literal for int() with base 10: 'Python'

类型转换也要遵守基本法。

实际上大多数机器学习中的数据都是浮点数。

In [12]:
nparr2 = np.array([1,2,3.0])

In [17]:
nparr2.dtype

dtype('float64')

ndarray.shape()： 返回numpy数组的维度。由于我们传入的是列表，因此返回的是一维数组，维数是(10,)，numpy中会以元组的方式返回数组在各个维度上的尺寸。

In [14]:
nparr.shape

(10,)

In [15]:
nparr.size

10

In [16]:
nparr.ndim

1

## 3. 其他创建 numpy.ndarray 的方法

* np.zeros() 创建一个0向量/矩阵

In [18]:
np.zeros(10) # 创建一个0向量/矩阵

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [49]:
np.zeros(10).dtype

dtype('float64')

In [19]:
np.zeros(10,dtype="int32") # 传入 dtype 参数限制数据类型

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [56]:
np.zeros(10).shape

(10,)

当 np.zeros(number)，返回的是一维数组；我们也可以传入一个元组，返回二维数组。

In [57]:
np.zeros((3,5)) # 创建一个全0矩阵，输入参数为一个元组，表示矩阵的行和列

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

也可以把方法的传入参数名显式地写出来

In [58]:
np.zeros(shape=(3,5),dtype="int32")

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [59]:
np.zeros((3,5)).shape

(3, 5)

* np.ones() 创建全1向量或矩阵

In [63]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [61]:
np.ones((3,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

* np.full(shape,fill_value) 创建自定义数据的向量或矩阵

In [64]:
np.full((3,5),25)

array([[25, 25, 25, 25, 25],
       [25, 25, 25, 25, 25],
       [25, 25, 25, 25, 25]])

In [65]:
np.full(shape=(3,5),fill_value=25)

array([[25, 25, 25, 25, 25],
       [25, 25, 25, 25, 25],
       [25, 25, 25, 25, 25]])

In [66]:
np.full(shape=(3,5),fill_value=25.0)

array([[25., 25., 25., 25., 25.],
       [25., 25., 25., 25., 25.],
       [25., 25., 25., 25., 25.]])

显式地写出参数名时，参数的顺序可以改变

In [67]:
np.full(fill_value=666,shape=(3,5))

array([[666, 666, 666, 666, 666],
       [666, 666, 666, 666, 666],
       [666, 666, 666, 666, 666]])

```思考```:  

传参时，要不要写参数名？- 方便他人阅读，如果只传一个参数，那么不用标注参数名。传入多个参数且容易混淆的时候，需要标注参数名。

In [68]:
np.full(fill_value=12,shape=10)

array([12, 12, 12, 12, 12, 12, 12, 12, 12, 12])

* np.eye(n) : 创建一个正方的n*n的单位矩阵，对角线为1，其余为0

In [21]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

* np.arange() 创建某个范围内的数组

In [69]:
[i for i in range(0,20,2)]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [70]:
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

**注意**：  

arange 和 range 的参数意义一样，但是 arange 支持产生浮点数

In [71]:
# [i for i in range(0,20,0.2)]

TypeError: 'float' object cannot be interpreted as an integer

In [72]:
np.arange(0,1,0.2)

array([0. , 0.2, 0.4, 0.6, 0.8])

In [73]:
np.arange(0,10) # 步长默认值是1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [74]:
np.arange(10) # 起始点默认值为0

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

*  np.linspace （linear space 的简写）

In [20]:
np.linspace(0,20,10) # [0,20]之间等长地截取出10个点，10个点包括0和20

array([ 0.        ,  2.22222222,  4.44444444,  6.66666667,  8.88888889,
       11.11111111, 13.33333333, 15.55555556, 17.77777778, 20.        ])

In [22]:
np.linspace(0,20,11)

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18., 20.])

**注意**：  

linspace的最后一个参数是指取出多少个点，而不是步长。

### 随机模块  numpy.random

np.random.randint() 生成随机整数

In [26]:
np.random.randint(0,10) # 生成[0,10)之间的某一个随机数,注意取不到10.

7

In [79]:
np.random.randint(0,10,10) # 生成[0,10)之间的10个随机数

array([9, 1, 5, 4, 0, 3, 3, 2, 8, 2])

In [80]:
np.random.randint(4,8,size=10) # 为了避免混淆，可以加入一个参数名

array([7, 7, 4, 6, 4, 6, 5, 7, 4, 6])

In [81]:
np.random.randint(4,8,size=(3,5))

array([[4, 4, 7, 5, 4],
       [6, 5, 6, 7, 6],
       [5, 5, 7, 6, 6]])

In [82]:
np.random.randint(4,8,size=(3,5))

array([[6, 6, 4, 5, 7],
       [4, 4, 4, 6, 6],
       [4, 4, 4, 7, 5]])

#### 随机种子的使用  

**固定**每次运行代码时生成的随机数

In [33]:
np.random.seed(1)

In [34]:
np.random.randint(4,8,size=(3,5))

array([[5, 7, 4, 4, 7],
       [5, 7, 5, 7, 4],
       [4, 5, 4, 7, 5]])

In [31]:
np.random.seed(1)

In [32]:
np.random.randint(4,8,size=(3,5))

array([[5, 7, 4, 4, 7],
       [5, 7, 5, 7, 4],
       [4, 5, 4, 7, 5]])

使用相同的随机种子，可以使得随机数每次生成的数据相同。

* np.random.random() 生成0到1之间均匀分布的随机浮点数

In [88]:
np.random.random()

0.66974603680348

In [89]:
np.random.random(10)

array([0.93553907, 0.84631092, 0.31327352, 0.52454816, 0.44345289,
       0.22957721, 0.53441391, 0.91396202, 0.45720481, 0.43069857])

In [90]:
np.random.random((3,5))

array([[0.93912779, 0.77838924, 0.71597052, 0.8027575 , 0.09280081],
       [0.51815255, 0.86502025, 0.82914691, 0.82960336, 0.27304997],
       [0.0592432 , 0.67052804, 0.59306552, 0.6716541 , 0.41178788]])

* np.random.normal() 生成正态分布的随机浮点数

In [91]:
np.random.normal() # 符合均值为0，方差为1的随机浮点数

-0.6311083309883015

传入参数，指定均值和方差

In [93]:
np.random.normal(10,100) # 符合均值为10，方差为100的分布里的随机浮点数

47.47519730897248

In [94]:
np.random.normal(0,1,(3,5)) # 生成符合分布的随机矩阵

array([[-0.47338275, -0.45452082, -0.08533806,  1.50318838,  1.16064112],
       [-0.4829414 , -1.80662901, -0.91544761, -0.06973398, -0.84995477],
       [ 0.05062323,  0.70507238, -1.67994195,  1.99997564,  1.15696327]])